Google已揭露了Gemini 2.5實驗性,其最新的AI模型,帶來了結構性推理,多模式能力和長篇文化理解的顯著改善。該模型目前可用於Gemini Advanced和Google AI工作室用戶,預計將很快推出到頂點AI。

此版本將Gemini 2.5直接與Xai的Grok 3 beta(Openai的O3-Mini High)(Openai的O3-Mini High)進行直接競爭,並且最新的型號最近引入了AI I Imption Ai Imprivient ai ai Improt 2.推理

Gemini 2.5中最值得注意的升級之一是它在產生響應之前使用多步邏輯驗證的能力,提高了其在復雜問題解決方案中的準確性。

“>

Google描述了這一點,將其描述為對其結構性的推理方法的改進,以確保更好的決策,並在研究中進行了更好的決策,並且可以在研究中,並且可以在研究中,並且可以在Enterprise中,EntriSe in Entrprise in EntriSe,A。 writing “[Gemini] 2.5 Pro ships today with a 1 million token context window (2 million coming soon), with strong performance that improves over previous generations”

How Does Gemini 2.5 Compare?

Google has positioned Gemini 2.5 Pro as an advanced reasoning model, but its true capabilities come into focus when compared across various performance dimensions against competing AI models, including OpenAI’s O3-Mini High和GPT-4.5,Xai的Grok 3 Beta,人類的Claude 3.7十四行詩和DeepSeek R1。結果顯示了一個模型,該模型在某些領域領先時面對其他領域。

來源:Google

推理和知識

現代AI模型最關鍵的方面之一是他們通過複雜的問題和一般知識任務來推理推理的能力。在人類的最後考試中,涵蓋數學,人文科學和自然科學的多模式測試,Gemini 2.5 Pro得分為18.8%。

這使其在Openai的O3-Mini High領先,在Openai的O3-Mini High之前,達到了14.0%,Deepseek R1和Deepseek R1,落後於8.6%。 While Gemini 2.5 outperforms these competitors, no direct comparison against OpenAI’s more advanced GPT-4.5 was provided, making it difficult to determine how Google’s model stacks up against OpenAI’s top-tier reasoning AI.

Mathematical Performance

Mathematical reasoning has been a focal point for AI development, particularly in solving competition-style problems. Gemini 2.5 Pro在AIME 2024數據集上達到了92.0%的精度,這是一種基準測試,旨在評估模型解決高級代數和數字理論問題的能力。

此分數顯著高於OpenAI的GPT-4.5,該分數僅比OpenAI的GPT-4.5高,該分數僅管理36.7%,並且在79.8%的deepseek r1上進行了管理。但是,當查看能夠進行多重響應的模型時,Grok 3 beta和DeepSeek R1的表現略好,兩者得分為93.3%。這表明,雖然Gemini 2.5在單一設置中具有很高的能力,但是當允許迭代其答案時,其他型號可能會略有優勢。

[嵌入式內容]

編碼和代理AI

代碼代碼生成和自主ai-Assisted Software softassed Software Evelptight and a-Assisted Softassed Softassed Bectecientive clenchs Markss Mench中。 On LiveCodeBench, a widely used standard for evaluating AI-assisted coding capabilities, OpenAI’s O3-Mini High leads with a 74.1% accuracy rate, surpassing Gemini 2.5 Pro’s 70.4%.

Despite this, Gemini 2.5 takes the lead in code editing tasks, particularly on the Aider Polyglot benchmark, where it scores 74.0%, ahead of Claude 3.7十四行詩和DeepSeek R1。

,在代理編碼中,AI的測試是根據自主完成多步軟件工程任務的能力測試的- Anththropic的Claude 3.7十四行詩優於所有主要競爭者,得分為70.3%。 Gemini 2.5佔63.8%,具有競爭力,但不足Claude在自主代碼執行方面的效率。

[嵌入式內容]

事實準確性和信息檢索

實際對AI的挑戰,並且在AI方面仍然是一個重大挑戰,並且在AI方面的性能仍然很大。在SimpleQA數據集上,該數據集測試了AI提供簡潔明了的準確答案的能力,OpenAI的GPT-4.5率為62.5%,其次是Gemini 2.5,為52.9%。

OpenAI的O3-Mini高跌幅落後於13.8%,而DeepSeek R1得分為30.1%。 30.1%。這些結果表明,儘管Gemini 2.5在事實準確性方面的表現良好,但OpenAI的更高級模型仍然在確保信息可靠性方面具有強大的優勢。

[嵌入式內容]

多模式推理和長期文本處理和長期文化處理

當前缺乏openai的模型,這些型號不足以競爭5個bection 5的支持。推理。它在MMMU基準測試中得分為81.7%,該測試評估了AI的視覺數據理解,遠遠領先於GPT-4.5(74.4%)和Claude 3.7 SONNET(75.0%)(75.0%)。

此外,Google的模型非常有能力處理長距離輸入。它在MRCR 128K上達到了91.5%的準確性,該精度評估了大型文本序列的AI保留,並以100萬英鎊的比例保持了83.1%的性能-優於Openai最佳可用的長篇小說36.3%。

Google的雙子座進化:從吟遊詩人到AI-First Integration

Gemini的演變正在重塑Google的AI生態系統。最初以吟遊詩人的身份推出,向雙子座的過渡標誌著向更先進的AI推理和在Google服務中進行深入整合的轉變。這種轉變只有最新的發展才加速。

最大的變化之一是Google決定用Gemini AI替換Google Assistant,這表明其致力於使Gemini成為旗艦AI助手。與Google Assistant依靠預定義的響應不同,Gemini提供了實時的多模式功能,包括基於屏幕的AI援助和通過Gemini Live實時的實時相機交互。

Google還更深入地將Gemini AI嵌入其生產力工具中。最新的Google Drive更新將Gemini集成了智能文件建議和AI生成的摘要,從而改善了文檔導航。同時,Gmail現在採用AI驅動的搜索,使電子郵件檢索更加直觀。

Google的擴展NotebookLM是邁向AI驅動知識管理的又一步。 The new Mind Maps feature, introduced in March 2025, allows users to visually organize research, complementing AI-generated notes.

The Competitive Landscape: Google vs OpenAI vs Microsoft

As AI reasoning models evolve, the competition between Google, OpenAI, and Microsoft continues to intensify. Openai仍然是事實準確性和結構化推理的領導者,而Google押注了多模式AI,個性化和生產力集成。同時,微軟正在利用Copilot AI在業務應用中與雙子座競爭,Adobe正在推動AI驅動的自動化。

為AI驅動的搜索助手的戰鬥也在加熱。據報導,OpenAI正在研究以Chatgpt為動力的搜索體驗,而Google的最新更新使Gemini可以使用搜索歷史記錄進行個性化響應。此舉帶來了新的AI功能和隱私問題,因為Google的目標是在平衡監管審查的同時完善AI交互。

與Gemini 2.5 Pro,Google正在強烈推動高級推理,多模式AI,並深入融入用戶工作流程。但是,仍然存在挑戰,尤其是在事實一致性和代理AI上,Openai和Anthropic等競爭對手仍然具有優勢。隨著AI驅動的助手,搜索模型和生產力工具的繼續發展,下一代AI競爭可能會圍繞個性化,推理和實時多模式互動。

Categories: IT Info