Sundar Pichai CEO ของ Alphabet ได้ประกาศว่าโมเดล Gemini 1.5 Pro ของ Google จะมีหน้าต่างบริบทที่ขยายเป็น 2 ล้านโทเค็น เพิ่มความจุเป็นสองเท่าจากเดิม การอัปเดตนี้ซึ่งเปิดเผยในระหว่างการประชุมนักพัฒนาซอฟต์แวร์ Google I/O 2024 มีเป้าหมายเพื่อปรับปรุงประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) ของ Google
การวิเคราะห์และทำความเข้าใจข้อมูลที่ปรับปรุงแล้ว
การขยายหน้าต่างบริบทจาก 1 ล้านเป็น 2 ล้านโทเค็นนั้นคาดว่าจะปรับปรุงความสามารถของโมเดลในการวิเคราะห์และทำความเข้าใจชุดข้อมูลขนาดใหญ่ขึ้น โทเค็นซึ่งเป็นส่วนของคำมีบทบาทสำคัญในวิธีที่ LLM ประมวลผลและสร้างภาษา โทเค็นแต่ละรายการประกอบด้วยอักขระภาษาอังกฤษ 4 ตัว และความจุที่เพิ่มขึ้นทำให้โมเดลสามารถรองรับอินพุตและเอาต์พุตข้อมูลที่ครอบคลุมมากขึ้น
Google ตั้งเป้าไปที่”บริบทที่ไม่มีที่สิ้นสุด”
โทเค็นมีความจำเป็นสำหรับ LLM เนื่องจากแบ่งคำออกเป็นหน่วยเล็กๆ เพื่อการวิเคราะห์และการสร้างการตอบสนอง หน้าต่างบริบทจะกำหนดจำนวนข้อมูลที่โมเดล AI สามารถจดจำและนำไปใช้ได้ และการเพิ่มจำนวนโทเค็นในหน้าต่างนี้จะช่วยให้ได้มากขึ้น การตอบสนองของ AI ที่ละเอียดและแม่นยำ
พิชัยยังกล่าวถึงเป้าหมายในอนาคตในการบรรลุ”บริบทที่ไม่มีที่สิ้นสุด”ซึ่ง LLM สามารถประมวลผลและส่งออกข้อมูลได้ไม่จำกัด อย่างไรก็ตาม เป้าหมายนี้ในปัจจุบันถูกจำกัดด้วยพลังในการคำนวณ จนถึงขณะนี้ การวิจัยของ Google บรรลุหน้าต่างบริบทที่มีโทเค็นถึง 10 ล้านโทเค็น ซึ่งบ่งบอกถึงความพยายามอย่างต่อเนื่องในการก้าวข้ามขีดจำกัดเหล่านี้
[เนื้อหาที่ฝัง]
ความสามารถขั้นสูงของ Gemini 1.5 Pro
ตามข้อมูลของ Google Gemini 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมหาศาลได้ในครั้งเดียว รวมถึงวิดีโอ 1 ชั่วโมง เสียง 11 ชั่วโมง รหัสฐานที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ แบบจำลองนี้สามารถวิเคราะห์ จำแนก และสรุปเนื้อหาจำนวนมากได้อย่างราบรื่นภายในข้อความแจ้งที่กำหนด เช่น ข้อความถอดเสียง 402 หน้าจากภารกิจของ Apollo 11 ไปยังดวงจันทร์
Google ยังกล่าวอีกว่าแบบจำลองนี้สามารถทำงานได้ในระดับสูง งานการทำความเข้าใจและการให้เหตุผลที่ซับซ้อนสำหรับรูปแบบต่างๆ รวมถึงวิดีโอ และสามารถวิเคราะห์จุดพล็อตและเหตุการณ์ต่างๆ ได้อย่างแม่นยำในภาพยนตร์เงียบเรื่อง Buster Keaton ความยาว 44 นาที นอกจากนี้ Gemini 1.5 Pro ยังสามารถทำงานแก้ไขปัญหาที่เกี่ยวข้องมากขึ้นในบล็อกโค้ดที่ยาวขึ้น เช่น การใช้เหตุผลในตัวอย่างต่างๆ การแนะนำการแก้ไขที่เป็นประโยชน์ และการอธิบายวิธีการทำงานของส่วนต่างๆ ของโค้ด
Gemini 1.5 Pro มี ยังปรับปรุงทักษะ”การเรียนรู้ในบริบท”อีกด้วย ซึ่งหมายความว่าสามารถเรียนรู้ทักษะใหม่จากข้อมูลที่ให้ไว้ได้ในระยะเวลาอันยาวนานโดยไม่จำเป็นต้องปรับแต่งเพิ่มเติม
[เนื้อหาที่ฝัง]
ประสิทธิภาพและการประเมินผล
Gemini 1.5 Pro มีประสิทธิภาพเหนือกว่า 1.0 Pro บน 87% ของการวัดประสิทธิภาพที่ใช้สำหรับการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) และทำงานในระดับที่ใกล้เคียงกันในวงกว้างกับ 1.0 Ultra บนการวัดประสิทธิภาพเดียวกัน ในการประเมิน Needle In A Haystack (NIAH) 1.5 Pro พบข้อความที่ฝังไว้ 99% ของเวลาในบล็อกข้อมูลยาวถึง 1 ล้านโทเค็น
Google กล่าวว่าได้ดำเนินการตามหลักจริยธรรมและความปลอดภัยอย่างกว้างขวาง การทดสอบ Gemini 1.5 Pro รวมถึงการประเมินในด้านต่างๆ เช่น ความปลอดภัยของเนื้อหาและอันตรายต่อการนำเสนอ
ดูตัวอย่างส่วนตัวและการเข้าถึงของนักพัฒนา
เริ่มตั้งแต่ตอนนี้ กลุ่มที่จำกัด ของนักพัฒนาและลูกค้าองค์กรสามารถทดลองใช้ Gemini 1.5 Pro พร้อมหน้าต่างบริบทสูงถึง 1 ล้านโทเค็นผ่าน AI Studio และ Vertex AI ในหน้าตัวอย่างส่วนตัว การเปิดตัวแบบเป็นขั้นตอนนี้ช่วยให้นักพัฒนาสามารถทดสอบและให้ข้อเสนอแนะเกี่ยวกับโมเดลที่ได้รับการปรับปรุงก่อนที่จะเข้าถึงได้ในวงกว้าง