Gemini 2.5 Pro ดูเหมือนจะเป็นโมเดล AI ตัวแรกที่เข้าใจเลย์เอาต์ PDF อย่างเต็มที่เปิดใช้งานการอ้างอิงที่แม่นยำ

Google สร้างรุ่น Gemini 2.5 Pro (ทดลอง) อย่างเงียบ ๆ ให้กับทุกคนที่ใช้เว็บแอปฟรีตั้งแต่วันที่ 29 มีนาคมซึ่งเป็นการขยายตัวที่รวดเร็วอย่างน่าทึ่งเพียงไม่กี่วันหลังจากการเปิดตัวครั้งแรกในวันที่ 25 มีนาคมสำหรับการจ่ายเงินสมาชิกและนักพัฒนา ความพร้อมใช้งานที่กว้างนี้นำมาซึ่งความสามารถที่น่าสนใจยิ่งขึ้นเมื่อเร็ว ๆ นี้เมื่อเร็ว ๆ นี้ความสามารถที่เน้นไปที่ผู้ชมจำนวนมาก: ความสามารถพิเศษที่ชัดเจนสำหรับการทำความเข้าใจไม่เพียง แต่ข้อความภายในเอกสาร PDF แต่โครงสร้างภาพของพวกเขาเช่นกัน

การวิเคราะห์โดย “วิสัยทัศน์ดั้งเดิม” หน้าต่างบริบทโทเค็นขนาดใหญ่ 1 ล้านโมเดลช่วยให้สามารถนำเข้าและวิเคราะห์เอกสารที่มีความยาวได้อย่างมีประสิทธิภาพ รายละเอียดเอกสารเกี่ยวกับเอกสารเกี่ยวกับ Gemini API เช่นการวิเคราะห์องค์ประกอบภาพเหล่านี้การแยกข้อมูลที่มีโครงสร้างตอบคำถามตามข้อความและภาพรวมและการถ่ายภาพ PDFs ลงในรูปแบบอื่น ๆ ในขณะที่พยายามรักษารูปแบบดั้งเดิม

คำอธิบายของบุคคลที่สามบางอย่างเช่น โพสต์ในคอมเพล็กซ์วิศวกรรม ข้อควรระวังเกี่ยวกับความแม่นยำของโมเดลในพื้นที่นี้ เอกสารอย่างเป็นทางการรายการ วัตถุ”

สิ่งนี้ชี้ให้เห็นว่าในขณะที่ราศีเมถุน 2.5 Pro แสดงสัญญาในการทำความเข้าใจเลย์เอาต์สำหรับงานบางอย่างเช่นการทดสอบ filimonov ที่ผ่านการทดสอบการบรรลุความแม่นยำในการระบุ ประมาณเดือนพฤศจิกายน 2024 ช่วยให้สามารถวิเคราะห์เนื้อหาผสมภายในเอกสารแม้ว่าโดยเฉพาะอย่างยิ่งสำหรับผู้ใช้ที่ชำระเงินหรือผ่าน API ที่มีขีด จำกัด ทางเทคนิคที่แตกต่างกัน

การย้ายของ Google เพื่อเสนอการใช้งานของ Gemini 2.5 Pro กิจกรรมที่กว้างขึ้นและการตรวจสอบบางอย่าง Google ผลักดันโมเดลออกไปอย่างกว้างขวางก่อนที่จะปล่อยเอกสารความปลอดภัยโดยละเอียด”การ์ดรุ่น”เริ่มต้นที่ตีพิมพ์ประมาณวันที่ 16 เมษายนได้รับการวิจารณ์จากผู้เชี่ยวชาญด้านการกำกับดูแล AI เช่น Kevin Bankston ที่ศูนย์ประชาธิปไตยและเทคโนโลยีซึ่งเรียกมันว่า”น้อย”และกังวลเกี่ยวกับ”เรื่องราวที่น่าเป็นห่วงของการแข่งขันที่ด้านล่างของความปลอดภัยและความโปร่งใสของ บริษัท ทำโดยทั่วไปแล้ว”บริบทของการทำซ้ำอย่างรวดเร็วนี้ยังเห็นการเปิดตัวตัวอย่างของ Gemini 2.5 Flash เมื่อวันที่ 18 เมษายนซึ่งเป็นแบบจำลองครั้งแรกที่เปิดเผยต่อสาธารณชนในวันที่ 9 เมษายนและปรับให้เหมาะสมสำหรับความเร็วและประสิทธิภาพการใช้งานผ่านการให้เหตุผลที่ควบคุมได้ หน้าต่าง (ด้วยการวางแผน 2 ล้านตามการประกาศเมื่อวันที่ 25 มีนาคมของ Google) รวมถึงประสิทธิภาพที่แข็งแกร่งในการใช้เหตุผลหลายรูปแบบ (ให้คะแนน 81.7% สำหรับเกณฑ์มาตรฐาน MMMU) และคณิตศาสตร์ที่ซับซ้อน (92.0% สำหรับ AIME 2024) 62.5%) และ Claude 3.7 Sonnet ของมานุษยวิทยาในแบบฝึกหัดการเข้ารหัสแบบอิสระ นี่เป็นตำแหน่ง Gemini 2.5 Pro ในฐานะโมเดลที่มีประสิทธิภาพและอเนกประสงค์ที่มีจุดแข็งเฉพาะโดยเฉพาะอย่างยิ่งในงานหลายรูปแบบและบริบทยาว ๆ แต่ประสิทธิภาพที่แตกต่างกันไปขึ้นอยู่กับโดเมนแอปพลิเคชันเฉพาะเมื่อวัดกับคู่แข่งชั้นนำในสนามที่มีการพัฒนาอย่างรวดเร็ว

Gemini 2.5 Pro ดูเหมือนจะเป็นโมเดล AI ตัวแรกที่เข้าใจเลย์เอาต์ PDF อย่างเต็มที่เปิดใช้งานการอ้างอิงที่แม่นยำ

Published by All Things Windows on April 21, 2025

IT Info

การตรวจสอบความปลอดภัยกล่าวว่าแอพ Android ของ Perplexity นั้นไม่ปลอดภัยอ้างถึงข้อบกพร่องที่สำคัญ

IT Info

Meta ทวีความรุนแรงยิ่งขึ้นการตรวจสอบอายุของ Instagram ด้วยระบบ AI เชิงรุก

IT Info

แผนที่การศึกษามานุษยวิทยา Claude AI ค่านิยมในโลกแห่งความเป็นจริงเผยแพร่ชุดข้อมูล

Gemini 2.5 Pro ดูเหมือนจะเป็นโมเดล AI ตัวแรกที่เข้าใจเลย์เอาต์ PDF อย่างเต็มที่เปิดใช้งานการอ้างอิงที่แม่นยำ

Published by All Things Windows on April 21, 2025

Related Posts

IT Info

การตรวจสอบความปลอดภัยกล่าวว่าแอพ Android ของ Perplexity นั้นไม่ปลอดภัยอ้างถึงข้อบกพร่องที่สำคัญ

IT Info

Meta ทวีความรุนแรงยิ่งขึ้นการตรวจสอบอายุของ Instagram ด้วยระบบ AI เชิงรุก

IT Info

แผนที่การศึกษามานุษยวิทยา Claude AI ค่านิยมในโลกแห่งความเป็นจริงเผยแพร่ชุดข้อมูล