Google DeepMind的Alphageomine2模型在國際數學奧利姆普(IMO) solving 84%的幾點geometry中,

alphageometry2通過增強其表示語言而建立在其前身字母計量的基礎上。 Google擴大了其處理更廣泛的幾何問題的功能,包括涉及對象運動和與角度,比率和距離有關的線性方程的功能。

去年7月,系統已經 reached銀牌水平在解決國際數學奧林匹克問題中Image/gif; base64,r0lgodlhaqabaaaaaach5baeakaaaaaaaaaaaaaaaaaaaaaaaaaaaaiCtaeaow==“>

新成就將AI系統定位為計算推理中的里程碑,這是一個將Deepmind推向人類界面的人類智能範圍內的人類智慧的能力。

它的前身alphage計量學僅達到了54%的成功率,將新系統標記為實質性的飛躍。

這一突破是基於Deepmind的成就的遺產,包括Alphafold 3 ,它改變了蛋白質結構的預測, alphago ,它掌握了古老的Go.

>

興奮地分享Alphageometry2(AG2)的詳細信息,該系統的一部分是在去年7月在IMO 2024實現銀色標準的系統! AG2現在已經超過了解決奧林匹克幾何問題的平均金醫師,所有IMO幾何問題的解決率為84%…… https://https://t。 co/javtpndbmu pic.twitter.com/exhstdevtp

-https://twitter.com/lmthang/status/1887928665100665111?ref_src=twsrc%5etfw”> february 7,2025

,展示了DeepMind模型在應對各種挑戰方面的適應性。

該系統將神經網絡架構與象徵性推理結合在一起,採用一種混合方法,使其能夠解決需要創造力和邏輯精度的問題。

alphageometry2不僅勝過許多人類專家,而且還引入了可能影響更廣泛的AI研究和應用的技術,包括工程和物理等領域。

它的成功基於諸如搜索樹(Skest)和優化符號引擎的共享知識合奏之類的創新,這使AI可以以前所未有的速度解決問題。

在AG1中,我們使用簡單的光束搜索來發現證據。在AG2中,我們設計了一種新穎的搜索算法,稱為搜索樹(Skest)的共享知識集合,以使多個光束搜索並行運行並互相幫助。這就是為什麼我們可以解決IMO… pic.twitter.com/z1078g083w

– thang luong(@lmthang)的原因之一

Alphageometry2的核心是其混合體系結構,它結合了DeepMind的Gemini語言模型和符號推理引擎(稱為DDAR)(演繹數據庫算術算法推理)。

此協作使AI能夠解釋和形式化複雜的幾何問題,生成潛在的解決方案,並通過嚴格的邏輯證明來驗證這些解決方案。

根據最近發表的關於alphageometry2 的DeepMind研究論文,“這些增強措施在績效方面取得了重大改進,:AG2在所有2000-2024 IMO幾何問題上實現了令人印象深刻的84%求解率,這表明AI可以解決挑戰性的數學推理任務的能力。這允許多種解決問題的策略並行起作用,從而通過創建共享的知識基礎來協調中間發現的共同知識基礎。 ,使其能夠同時探索推理的多種途徑。

DeepMind還實施了對系統的符號推理引擎的實質性技術升級,該引擎現在比基於Python的發動機更快。前任,允許在受限的計算預算中更全面地解決問題。

這些優化擴展了Alphageometry2可以處理的問題的範圍,包括複雜的基因座類型問題,這些問題在對象移動的同時保持與其他幾何元素的特定關係。

超過人類的表現。幾何

alphageometry2的性能將其置於普通的IMO金牌得主之上,後者通常在IMO-AG-50基準集合中解決50個問題中的40個。

該系統解決了42個問題,標誌著與人類專家的輕微但有意義的優勢。考慮到IMO問題的困難,這項成就尤其令人驚訝,這需要對飛機上幾何關係的陳述進行嚴格的證據。

alphageometry2最引人注目的方面之一是其解決高級幾何問題的能力,例如作為涉及基因座的那些。 A>需要了解點或對像在保留某些條件時如何移動,這是將抽象推理與數學嚴謹的任務相結合的任務。

通過成功解決這些挑戰,Alphageometry2已將其問題覆蓋範圍從66%擴大到IMO幾何問題的88%。

驅動Alphageometry2

AlphageMateMemetry2成功的關鍵因素的創新。它依賴合成訓練數據。 DeepMind產生了超過3億個合成定理和證明,涵蓋了廣泛的複雜性,以訓練基於雙子座的語言模型。

這種方法使AI能夠深入了解幾何原理,並解決超出人類策劃數據集的問題。這些合成數據集不僅增強了解決問題的能力,而且還證明了DeepMind AI研究的可擴展性。

alphageometry2的符號推理引擎DDAR在將這些理論洞察力轉化為實用解決方案方面起著關鍵作用。通過驗證語言模型建議的邏輯一致性,DDAR確保解決問題過程中的每個步驟都遵守嚴格的數學規則。

神經適應性和邏輯精度集的這種組合使Alphageometry2與更傳統的大語言模型不同。

儘管其性能出色,但該系統仍有局限性。它與涉及不平等,非線性方程式和可變點計數的問題鬥爭-需要更先進的推理功能。根據DeepMind的研究,“在改善模型速度並完全解決幻覺之前,符號發動機之類的工具對於數學應用程序仍然至關重要。”

超出競爭性數學的含義

Alphageometry2的成功表明了混合AI系統在解決高度專業化的問題上的潛力。物理學,複雜的模型通常依賴於復雜的幾何計算。

通過將符號推理與神經網絡相結合,Alphageometry2為AI系統鋪平了道路,該系統能夠解決需要精確和創造力的挑戰。

<

<

DeepMind的更廣泛的AI進步為理解Alphagemetry2的重要性提供了寶貴的背景,例如Alphafold,徹底改變了蛋白質結構預測的領域,這說明了目標的AI解決方案如何推動跨學科的進展。

類似地, Alphago展示了AI的潛力來掌握戰略推理,而Gemini等大型語言模型則引入了創新的方法來解決抽象問題。

未來的前景和挑戰

Alphageometry2的發展已重新激發了AI研究社區中關於混合系統在解決複雜問題中的作用的辯論。儘管Gemini或Openai的GPT模型(例如GPT模型)在產生類似人類的文本方面表現出色,但在面對需要正式推理或邏輯一致性的任務時,它們通常會搖搖欲墜。

alphageometry2通過集成符號推理,為下一代AI系統提供潛在的藍圖。

,仍然存在挑戰。對符號發動機的依賴引入了計算開銷,該系統無法處理某些問題類型突出了進一步創新的需求。隨著研究人員完善該模型,整合高級推理方法和更快的算法將是克服這些局限性的關鍵。

對於對AI最新發展的讀者,DeepMind的最新發展,DeepMind的持續努力,包括最近的Alphafold開放式外源3,展示公司致力於擴大AI可以實現的界限。

Categories: IT Info