Google DeepMind的Alphageomine2模型在國際數學奧利姆普(IMO) solving 84%的幾點geometry中,
alphageometry2通過增強其表示語言而建立在其前身字母計量的基礎上。 Google擴大了其處理更廣泛的幾何問題的功能,包括涉及對象運動和與角度,比率和距離有關的線性方程的功能。 去年7月,系統已經 reached銀牌水平在解決國際數學奧林匹克問題中Image/gif; base64,r0lgodlhaqabaaaaaach5baeakaaaaaaaaaaaaaaaaaaaaaaaaaaaaiCtaeaow==“> 新成就將AI系統定位為計算推理中的里程碑,這是一個將Deepmind推向人類界面的人類智能範圍內的人類智慧的能力。 它的前身alphage計量學僅達到了54%的成功率,將新系統標記為實質性的飛躍。 這一突破是基於Deepmind的成就的遺產,包括Alphafold 3 ,它改變了蛋白質結構的預測, alphago ,它掌握了古老的Go. > 興奮地分享Alphageometry2(AG2)的詳細信息,該系統的一部分是在去年7月在IMO 2024實現銀色標準的系統! AG2現在已經超過了解決奧林匹克幾何問題的平均金醫師,所有IMO幾何問題的解決率為84%…… https://https://t。 co/javtpndbmu pic.twitter.com/exhstdevtp
-https://twitter.com/lmthang/status/1887928665100665111?ref_src=twsrc%5etfw”> february 7,2025
,展示了DeepMind模型在應對各種挑戰方面的適應性。
該系統將神經網絡架構與象徵性推理結合在一起,採用一種混合方法,使其能夠解決需要創造力和邏輯精度的問題。
alphageometry2不僅勝過許多人類專家,而且還引入了可能影響更廣泛的AI研究和應用的技術,包括工程和物理等領域。
它的成功基於諸如搜索樹(Skest)和優化符號引擎的共享知識合奏之類的創新,這使AI可以以前所未有的速度解決問題。
在AG1中,我們使用簡單的光束搜索來發現證據。在AG2中,我們設計了一種新穎的搜索算法,稱為搜索樹(Skest)的共享知識集合,以使多個光束搜索並行運行並互相幫助。這就是為什麼我們可以解決IMO… pic.twitter.com/z1078g083w
– thang luong(@lmthang)的原因之一
Alphageometry2的核心是其混合體系結構,它結合了DeepMind的Gemini語言模型和符號推理引擎(稱為DDAR)(演繹數據庫算術算法推理)。
此協作使AI能夠解釋和形式化複雜的幾何問題,生成潛在的解決方案,並通過嚴格的邏輯證明來驗證這些解決方案。
根據最近發表的關於alphageometry2 的DeepMind研究論文,“這些增強措施在績效方面取得了重大改進,:AG2在所有2000-2024 IMO幾何問題上實現了令人印象深刻的84%求解率,這表明AI可以解決挑戰性的數學推理任務的能力。這允許多種解決問題的策略並行起作用,從而通過創建共享的知識基礎來協調中間發現的共同知識基礎。 ,使其能夠同時探索推理的多種途徑。
DeepMind還實施了對系統的符號推理引擎的實質性技術升級,該引擎現在比基於Python的發動機更快。前任,允許在受限的計算預算中更全面地解決問題。
這些優化擴展了Alphageometry2可以處理的問題的範圍,包括複雜的基因座類型問題,這些問題在對象移動的同時保持與其他幾何元素的特定關係。
超過人類的表現。幾何
alphageometry2的性能將其置於普通的IMO金牌得主之上,後者通常在IMO-AG-50基準集合中解決50個問題中的40個。
該系統解決了42個問題,標誌著與人類專家的輕微但有意義的優勢。考慮到IMO問題的困難,這項成就尤其令人驚訝,這需要對飛機上幾何關係的陳述進行嚴格的證據。
alphageometry2最引人注目的方面之一是其解決高級幾何問題的能力,例如作為涉及基因座的那些。 A>需要了解點或對像在保留某些條件時如何移動,這是將抽象推理與數學嚴謹的任務相結合的任務。
通過成功解決這些挑戰,Alphageometry2已將其問題覆蓋範圍從66%擴大到IMO幾何問題的88%。