Google ได้ประกาศเปิดตัว Gemini 2.0 Flash Thinking ซึ่งเป็นโมเดลการใช้เหตุผลเชิงทดลองที่ออกแบบมาเพื่อการแก้ปัญหาที่ซับซ้อนโดยใช้ข้อมูลหลายประเภท โมเดลใหม่ช่วยให้ผู้ใช้เห็นขั้นตอนที่ใช้ในการหาคำตอบ โดยให้ข้อมูลเชิงลึกเกี่ยวกับกระบวนการวิเคราะห์
Gemini 2.0 Flash Thinking เป็นการตอบสนองโดยตรงต่อโมเดลการให้เหตุผล o1 ของ OpenAI โดย Google เน้นความโปร่งใสและ ความเร็วเป็นคุณสมบัติหลักของการออกแบบ
โมเดลที่รอบคอบที่สุดของเรา:) https://t.co/xIz3w5dtGJ
— Sundar Pichai (@sundarpichai) 19 ธันวาคม 2024
กระบวนการให้เหตุผลที่แสดงทีละขั้นตอน
คุณลักษณะสำคัญของ Gemini 2.0 Flash Thinking คือการมุ่งเน้นไปที่การทำให้ กระบวนการให้เหตุผลที่ผู้ใช้เข้าใจได้ สิ่งนี้แตกต่างกับระบบ AI ขั้นสูงบางระบบที่กระบวนการตัดสินใจมักจะไม่ชัดเจน
โมเดลใหม่ของ Google ต่างจากโมเดลการให้เหตุผล o1 ของ OpenAI โดยให้วิธีสำหรับผู้ใช้ในการทำตามขั้นตอนการรับรู้ผ่านอินเทอร์เฟซผู้ใช้ ตามเอกสารอย่างเป็นทางการของ Google”โหมดการคิด”ในโมเดลนี้ให้ความสามารถในการให้เหตุผลที่แข็งแกร่งกว่าเมื่อเปรียบเทียบกับโมเดล Gemini 2.0 Flash มาตรฐาน
ฟีเจอร์นี้แก้ไขข้อกังวลเรื่อง”กล่องดำ”ที่มักเกี่ยวข้องกับ AI ซึ่งสอดคล้องกับ รูปแบบที่มีแนวคิดในการทำให้การดำเนินงานมีความเข้าใจมากขึ้น การสังเกตเบื้องต้นชี้ให้เห็นว่าโมเดลนี้สามารถแก้ไขปัญหาที่ยากสำหรับระบบ AI อื่นๆ ได้อย่างมีประสิทธิภาพและรวดเร็ว
การประมวลผลหลายรูปแบบในตัว
คุณลักษณะที่สำคัญอีกประการหนึ่ง Gemini 2.0 Flash Thinking คือความสามารถในการประมวลผลอินพุตรูปภาพควบคู่ไปกับข้อความ แม้ว่า o1 ของ OpenAI จะใช้งานได้เฉพาะกับข้อความก่อนที่จะเพิ่มความสามารถด้านรูปภาพในภายหลัง แต่โมเดลของ Google ได้รับการออกแบบมาเพื่อจัดการข้อมูลหลายประเภทตั้งแต่เริ่มต้น
ความสามารถในตัวนี้ช่วยให้โมเดลสามารถจัดการกับสถานการณ์ที่ซับซ้อนซึ่งจำเป็นต้องมีการวิเคราะห์ ข้อมูลประเภทต่างๆ ตัวอย่างเช่น โมเดลสามารถไขปริศนาที่ต้องใช้ทั้งข้อความและรูปภาพ ซึ่งแสดงให้เห็นถึงความสามารถในการทำงานกับรูปแบบข้อมูลที่แตกต่างกัน ขณะนี้นักพัฒนาสามารถเข้าถึงฟีเจอร์เหล่านี้ผ่าน Google AI Studio และ Vertex AI
ผลลัพธ์เกณฑ์มาตรฐาน
ผลลัพธ์แรกจากกระดานผู้นำเกณฑ์มาตรฐาน Chatbot Arena สำหรับ Gemini-2.0-Flash-Thinking-exp-1219 ที่ทดสอบแล้ว การแสดงแบบจำลอง ประสิทธิภาพที่เหนือกว่าโดยทั่วไปเมื่อเปรียบเทียบกับรุ่น OpenAi o1 ที่ระบุไว้ (o1-preview และ o1-mini)
Gemini-2.0-Flash-Thinking #1 ในทุกหมวดหมู่! pic.twitter.com/mRctNA31B9
— lmarena.ai (ชื่อเดิม lmsys.org) (@lmarena_ai) 19 ธันวาคม 2024
ต่อต้าน o1-ตัวอย่าง, ราศีเมถุน-2.0-Flash-Thinking มีประสิทธิภาพเหนือกว่าอย่างเห็นได้ชัดในด้านประสิทธิภาพโดยรวม โดยรวมแล้ว พร้อมการควบคุมสไตล์ การเขียนเชิงสร้างสรรค์ การปฏิบัติตามคำสั่ง และแบบสอบถามที่ยาวขึ้น พวกเขาได้รับอันดับเดียวกันใน Hard Prompts, Hard Prompts พร้อมการควบคุมรูปแบบ, การเขียนโค้ด และคณิตศาสตร์ เมื่อเทียบกับ o1-mini Gemini-2.0-Flash-Thinking มีประสิทธิภาพเหนือกว่าอย่างเห็นได้ชัดในด้านประสิทธิภาพโดยรวม โดยรวมพร้อมการควบคุมสไตล์ Hard Prompts Hard Prompts พร้อมการควบคุมสไตล์ การเขียนเชิงสร้างสรรค์ การติดตามคำสั่ง และอีกต่อไป แบบสอบถาม พวกเขาได้รับอันดับเดียวกันในการเขียนโค้ดและคณิตศาสตร์
โปรดทราบว่าการเปรียบเทียบนี้รวมเฉพาะรุ่น o1 รุ่น”ตัวอย่าง”และ”มินิ”เท่านั้น เวอร์ชันที่เสถียรของ o1 และ o1 Pro ไม่อยู่ในภาพรวมนี้ ซึ่งหมายความว่าไม่ได้สะท้อนถึงการเปรียบเทียบกับรุ่นตระกูล o1 ที่ออกรุ่นที่เสถียรและมีความสามารถมากกว่า
อย่างไรก็ตาม ตาม ข้อมูลที่มีอยู่ Gemini-2.0-Flash-Thinking-exp-1219 แสดงให้เห็นถึงโปรไฟล์ประสิทธิภาพที่แข็งแกร่งกว่ามากเมื่อเทียบกับรุ่น o1-preview และ o1-mini
รายละเอียดของ Gemini 2.0 Flash Thinking
Gemini 2.0 Flash Thinking เปิดให้ใช้งานในรูปแบบการทดลองภายใน Google AI Studio แล้ว สร้างขึ้นบนรากฐานของรุ่น Gemini 2.0 Flash ที่เพิ่งเปิดตัว
Jeff Dean หัวหน้านักวิทยาศาสตร์ของ Google DeepMind อธิบายว่าโมเดลนี้”ได้รับการฝึกฝนให้ใช้ความคิดเพื่อเสริมสร้างการให้เหตุผล”นอกจากนี้เขายังตั้งข้อสังเกตอีกว่า”ผลลัพธ์ที่น่าหวังเมื่อเราเพิ่มการคำนวณเวลาในการอนุมาน”ซึ่งหมายถึงปริมาณของ ทรัพยากรการประมวลผลที่ใช้ในการประมวลผลคำค้นหา
ขอแนะนำ Gemini 2.0 Flash Thinking ซึ่งเป็นโมเดลทดลองที่แสดงความคิดอย่างชัดเจน
สร้างขึ้นบน ความเร็วและประสิทธิภาพของ Flash 2.0 โมเดลนี้ได้รับการฝึกฝนให้ใช้ความคิดเพื่อเสริมสร้างการใช้เหตุผล
และเราเห็นผลลัพธ์ที่ดีเมื่อเราเพิ่มเวลาการอนุมาน…
— Jeff Dean (@JeffDean) 19 ธันวาคม ปี 2024
Dean ยังได้แชร์การสาธิตที่โมเดลแก้ปัญหาปัญหาทางฟิสิกส์ที่ซับซ้อน
อยากเห็น Gemini 2.0 Flash Thinking ใช้งานจริงไหม ลองดูการสาธิตนี้ซึ่งโมเดลนี้จะช่วยแก้ปัญหาทางฟิสิกส์และอธิบายเหตุผล pic.twitter.com/Nl0hYj7ZFS
— เจฟฟ์ ดีน (@JeffDean) 19 ธันวาคม 2024
โมเดลรองรับความยาวบริบทที่มากกว่า 128k มีโทเค็นจำกัดที่ 32,000 โทเค็นสำหรับอินพุต และสามารถสร้างเอาต์พุตที่มีความยาวสูงสุด 8,000 โทเค็น โดยมาพร้อมกับการตัดความรู้ในเดือนสิงหาคม 2024 เอกสารของ Google ระบุไว้ว่า “Thinking Mode มีความสามารถในการให้เหตุผลในการตอบสนองได้ดีกว่ารุ่น Gemini 2.0 Flash พื้นฐาน” ซึ่งเน้นย้ำถึงความสามารถในการวิเคราะห์ที่ได้รับการปรับปรุง
ในปัจจุบัน โมเดลมีให้บริการโดยไม่มีค่าใช้จ่ายภายใน Google AI Studio แต่เอกสารระบุไว้ว่า การผสานรวมบางอย่าง เช่น ฟังก์ชันการค้นหาของ Google ยังไม่พร้อมใช้งาน โมเดลนี้ได้รับการออกแบบมาโดยเฉพาะสำหรับงาน”การทำความเข้าใจหลายรูปแบบ การใช้เหตุผล”และ”การเขียนโค้ด”
การแข่งขันกับ OpenAI แบบพรีเมียม ข้อเสนอ
การเปิดตัว Gemini 2.0 Flash Thinking เกิดขึ้นไม่นานหลังจากที่ OpenAI ได้เปิดตัว ChatGPT Pro ซึ่งเป็นเวอร์ชันเต็มของโมเดลการให้เหตุผล o1 ในวันที่ 5 ธันวาคม โดยเน้นย้ำถึงการแข่งขันที่เพิ่มขึ้นในด้าน AI ขั้นสูง
การเปิดตัว Gemini 2.0 Flash Thinking ของ Google เกิดขึ้นเมื่อ OpenAI เพิ่งสร้างข้อเสนอระดับพรีเมียมสำหรับความสามารถในการให้เหตุผลขั้นสูง ในขณะที่โหมด o1 pro ของ OpenAI เน้นประสิทธิภาพผ่านทรัพยากรการคำนวณที่เพิ่มขึ้น Gemini 2.0 Flash Thinking ของ Google เน้นความโปร่งใสของกระบวนการให้เหตุผล
ความแตกต่างนี้เน้นย้ำถึงกลยุทธ์ที่แตกต่างที่ใช้ในการพัฒนา AI โดยบางส่วนมุ่งเน้นไปที่พลังการคำนวณ และบางส่วนให้ความสำคัญกับความเข้าใจและความไว้วางใจของผู้ใช้