Google ได้เปิดตัว Gemini 2.5 Experimental โมเดล AI ล่าสุดนำการปรับปรุงที่สำคัญในการใช้เหตุผลที่มีโครงสร้างความสามารถหลายรูปแบบและความเข้าใจบริบทยาวนาน โมเดลซึ่งปัจจุบันมีให้สำหรับ Gemini Advanced และผู้ใช้ Google AI Studio คาดว่าจะเปิดตัวสู่ Vertex AI เร็ว ๆ นี้

การเปิดตัวครั้งนี้ทำให้ Gemini 2.5 การแข่งขันโดยตรงกับ Grok 3 ของ Xai High High ของ Openai ปรับปรุงการใช้เหตุผล AI

หนึ่งในการอัพเกรดที่โดดเด่นที่สุดในราศีเมถุน 2.5 คือความสามารถในการใช้การตรวจสอบเชิงตรรกะหลายขั้นตอนก่อนที่จะสร้างการตอบสนองการปรับปรุงความแม่นยำในการแก้ปัญหาที่ซับซ้อน

<ความกว้าง IMG="1024"src="ข้อมูล: image/svg+xml; nitro-empty-id=mty4ntoxodu5-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2mj Kiihdpzhropsixmdi0iibozwlnahq9ijyyoSigeG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=">>

Google อธิบายถึงสิ่งนี้ การเขียน“ [Gemini] 2.5 Pro Ships ในวันนี้ด้วยหน้าต่างบริบท 1 ล้าน (2 ล้านเร็ว ๆ นี้) ด้วยประสิทธิภาพที่แข็งแกร่งที่ดีขึ้นในรุ่นก่อนหน้า”

Gemini 2.5 เปรียบเทียบได้อย่างไร

รวมถึง O3-Mini High และ GPT-4.5 ของ OpenAI, Grok 3 Beta ของ Xai, Claude 3.7 Sonnet ของมานุษยวิทยาและ Deepseek R1 ผลลัพธ์แสดงรูปแบบที่นำไปสู่ในบางพื้นที่ในขณะที่เผชิญหน้ากับการแข่งขันในผู้อื่น

ที่มา: Google

การให้เหตุผลและความรู้

หนึ่งในแง่มุมที่สำคัญที่สุดของโมเดล AI สมัยใหม่คือความสามารถในการให้เหตุผลผ่านปัญหาที่ซับซ้อนและงานความรู้ทั่วไป ในการสอบครั้งสุดท้ายของมนุษยชาติการทดสอบแบบหลายรูปแบบครอบคลุมคณิตศาสตร์มนุษยศาสตร์และวิทยาศาสตร์ธรรมชาติ Gemini 2.5 Pro ทำคะแนนได้ 18.8%

สิ่งนี้ทำให้เกิดความสูงของ Onai ซึ่งประสบความสำเร็จ 14.0%และ Deepseek R1 ในขณะที่ราศีเมถุน 2.5 มีประสิทธิภาพสูงกว่าคู่แข่งเหล่านี้ แต่ไม่มีการเปรียบเทียบโดยตรงกับ GPT-4.5 ที่ก้าวหน้ากว่าของ OpenAI ทำให้ยากที่จะกำหนดว่าแบบจำลองของ Google จะซ้อนกันอย่างไรกับการให้เหตุผลระดับสูงสุดของ OpenAI Gemini 2.5 Pro ได้รับอัตราความแม่นยำ 92.0%ในชุดข้อมูล AIME 2024 ซึ่งเป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินความสามารถของแบบจำลองในการแก้ปัญหาพีชคณิตขั้นสูงและปัญหาทฤษฎีจำนวน

คะแนนนี้สูงกว่า GPT-4.5 ของ OpenAI ซึ่งจัดการเพียง 36.7% อย่างไรก็ตามเมื่อดูแบบจำลองที่มีความสามารถในการตอบสนองหลายครั้ง Grok 3 Beta และ Deepseek R1 ทำงานได้ดีขึ้นเล็กน้อยทั้งสองคะแนน 93.3% สิ่งนี้ชี้ให้เห็นว่าในขณะที่ราศีเมถุน 2.5 มีความสามารถสูงในการตั้งค่าเดียว แต่รุ่นอื่น ๆ อาจมีข้อได้เปรียบเล็กน้อยเมื่อได้รับอนุญาตให้ทำซ้ำคำตอบของพวกเขา

[เนื้อหาที่ฝังตัว]

การเข้ารหัสและตัวแทน AI

บน LiveCodeBench มาตรฐานที่ใช้กันอย่างแพร่หลายสำหรับการประเมินความสามารถในการเข้ารหัส AI-MASSISTED, OpenAI ของ OpenAI สูงนำไปสู่อัตราความแม่นยำ 74.1%ซึ่งเหนือกว่า Gemini 2.5 Pro 70.4%

Claude 3.7 Sonnet และ Deepseek R1.

อย่างไรก็ตามในการเข้ารหัสตัวแทน-ที่ AI ได้รับการทดสอบเกี่ยวกับความสามารถในการทำงานด้านวิศวกรรมซอฟต์แวร์หลายขั้นตอนหลายขั้นตอน-CLAUDE 3.7 SONNET ของคู่แข่งรายใหญ่ทั้งหมด ราศีเมถุน 2.5 ที่ 63.8%มีการแข่งขัน แต่ขาดประสิทธิภาพของ Claude ในการดำเนินการรหัสอัตโนมัติ

[เนื้อหาที่ฝังตัว]

ความถูกต้องและการดึงข้อมูลความถูกต้องและการดึงข้อมูล

ในชุดข้อมูล SimpleQa ซึ่งทดสอบความสามารถของ AI ในการให้คำตอบที่กระชับและถูกต้องตามความเป็นจริง GPT-4.5 ของ OpenAi นำไปสู่ ​​62.5%ตามด้วย Gemini 2.5 ที่ 52.9% ผลลัพธ์เหล่านี้บ่งชี้ว่าในขณะที่ Gemini 2.5 ทำงานได้ดีในความถูกต้องตามความเป็นจริงโมเดลขั้นสูงของ OpenAI ยังคงมีข้อได้เปรียบที่แข็งแกร่งในการรับรองความน่าเชื่อถือของข้อมูล

[เนื้อหาที่ฝังอยู่]

การใช้เหตุผลหลายรูปแบบ การใช้เหตุผลตามวิสัยทัศน์ คะแนน 81.7%ตามเกณฑ์มาตรฐาน MMMU การทดสอบที่ประเมินความเข้าใจ AI ของข้อมูลภาพก่อนหน้า GPT-4.5 (74.4%) และ Claude 3.7 Sonnet (75.0%)

นอกจากนี้โมเดลของ Google นั้นมีความสามารถสูงในการประมวลผลอินพุต มันบรรลุความแม่นยำ 91.5% สำหรับ MRCR 128K ซึ่งประเมินการเก็บรักษา AI ของลำดับข้อความขนาดใหญ่และรักษาประสิทธิภาพ 83.1% ในระดับ 1 ล้านเทิน-Far เหนือกว่าประสิทธิภาพการใช้บริบทยาวที่ดีที่สุดของ OpenAI ที่ 36.3%

src=”ข้อมูล: image/svg+xml; nitro-empty-id=mtc2ndoxodk5-1; base64, phn2zyb2awv3qm94psiwidagnzcwidewmjqiih dpzhropsi3nzaiighlawdodd0imtayncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> แหล่งที่มา: Google

วิวัฒนาการของราศีเมถุนของ Google: จาก Bard ไปจนถึงการรวม AI-First

วิวัฒนาการของราศีเมถุนกำลังปรับเปลี่ยนระบบนิเวศ AI ของ Google เริ่มแรกเปิดตัวเป็น Bard การเปลี่ยนไปใช้ราศีเมถุนทำเครื่องหมายการเปลี่ยนแปลงไปสู่การให้เหตุผล AI ขั้นสูงและการรวมเข้ากับบริการของ Google อย่างลึกซึ้งยิ่งขึ้น การเปลี่ยนแปลงนี้เร่งความเร็วด้วยการพัฒนาล่าสุด

หนึ่งในการเปลี่ยนแปลงที่ยิ่งใหญ่ที่สุดคือการตัดสินใจของ Google ในการแทนที่ Google Assistant ด้วย Gemini AI ซึ่งส่งสัญญาณความมุ่งมั่นในการทำให้ Gemini ผู้ช่วย AI เรือธง ซึ่งแตกต่างจาก Google Assistant ซึ่งอาศัยการตอบสนองที่กำหนดไว้ล่วงหน้าราศีเมถุนมีความสามารถหลายอย่างแบบเรียลไทม์รวมถึงความช่วยเหลือ AI บนหน้าจอและการโต้ตอบกับกล้องถ่ายทอดสดผ่าน Gemini Live

Google ยังฝัง Gemini AI อย่างลึกซึ้งยิ่งขึ้นในเครื่องมือการผลิต การอัปเดต Google ไดรฟ์ล่าสุดรวม Gemini สำหรับคำแนะนำไฟล์อัจฉริยะและบทสรุปที่สร้างขึ้นโดย Ai ซึ่งปรับปรุงการนำทางเอกสาร ในขณะเดียวกันตอนนี้ Gmail มีการค้นหาที่ขับเคลื่อนด้วย AI ทำให้การดึงอีเมลใช้งานง่ายขึ้น

การขยายตัวของโน้ตบุ๊กของ Google เป็นอีกก้าวหนึ่งสู่การจัดการความรู้ที่ขับเคลื่อนด้วย AI คุณลักษณะแผนที่จิตใจใหม่ซึ่งเปิดตัวในเดือนมีนาคม 2568 ช่วยให้ผู้ใช้สามารถจัดระเบียบวิจัยด้วยสายตาเสริมบันทึกย่อที่สร้างขึ้นด้วย Ai-Generated

ภูมิทัศน์การแข่งขัน: Google vs Openai กับ Microsoft

OpenAI ยังคงเป็นผู้นำในความถูกต้องและการใช้เหตุผลที่มีโครงสร้างในขณะที่ Google กำลังเดิมพันกับ AI หลายรูปแบบการตั้งค่าส่วนบุคคลและการบูรณาการการผลิต ในขณะเดียวกัน Microsoft กำลังใช้ประโยชน์จาก Copilot AI เพื่อเป็นคู่แข่งกับราศีเมถุนในแอพพลิเคชั่นธุรกิจและ Adobe กำลังผลักดันระบบอัตโนมัติที่ขับเคลื่อนด้วย AI ในเครื่องมือสร้างสรรค์

การต่อสู้เพื่อผู้ช่วยค้นหา AI กำลังร้อนขึ้น มีรายงานว่า OpenAI กำลังทำงานเกี่ยวกับประสบการณ์การค้นหาที่ขับเคลื่อนด้วย CHATGTT ในขณะที่การอัปเดตล่าสุดของ Google อนุญาตให้ราศีเมถุนใช้ประวัติการค้นหาสำหรับการตอบกลับส่วนบุคคล การย้ายครั้งนี้นำมาซึ่งความสามารถ AI ใหม่และความกังวลเกี่ยวกับความเป็นส่วนตัวเนื่องจาก Google ตั้งเป้าหมายที่จะปรับแต่งการโต้ตอบของ AI ในขณะที่สร้างความสมดุลระหว่างการตรวจสอบด้านกฎระเบียบ

ด้วย Gemini 2.5 Pro, Google กำลังผลักดันให้เกิดการให้เหตุผลขั้นสูง อย่างไรก็ตามความท้าทายยังคงอยู่โดยเฉพาะอย่างยิ่งในความสม่ำเสมอและ Agentic AI ซึ่งคู่แข่งอย่าง Openai และมานุษยวิทยายังคงได้เปรียบ ในฐานะผู้ช่วยที่ขับเคลื่อนด้วย AI โมเดลการค้นหาและเครื่องมือเพิ่มประสิทธิภาพยังคงพัฒนาอย่างต่อเนื่องการแข่งขัน AI รุ่นต่อไปจะเน้นไปที่การปรับเปลี่ยนการให้เหตุผลและการโต้ตอบหลายครั้งแบบเรียลไทม์