8月5日,來自XAI,Google和OpenAI的AI頂級車型在新的國際象棋比賽中展示了他們的戰略技能。該活動在Google的新Kaggle遊戲領域舉行,測試了通用AIS的推理能力。在第一天,Grok 4,Gemini 2.5 Pro,O4-Mini和O3都以4-0的掃描前進。
由DeepMind設計的比賽旨在看看這些AIS AIS如何處理複雜的實時策略。此舉標誌著從靜態基準轉到動態,競爭性環境的轉變。它提供了一種衡量世界領先語言模型的解決問題的能力的新方法。
AI推理的一個新的證明基礎
Google的數據科學社區Kaggle啟動了
augt-nimiim-國際象棋錦標賽以八個領先的LLM為特色。陣容包括Google的Google的Gemini 2.5 Pro和Flash,Openai的O3和O4-Mini,Anthropic的Claude 4 Opus,Xai的Grok 4,DeepSeek-R1和Moonshot的Kimi K2。這些模型必須依靠自己的推理,不訪問國際象棋引擎。 第一天的動作使所有四分之一決賽的比賽都以驚人的單方面4-0的結果結束,但故事背後的故事卻落後於攝影作品。儘管勝利者(Grok 4,Gemini 2.5 Pro,O4-Mini和O3)都乾淨利落,但他們的勝利性質突顯了模型玩遊戲的能力的顯著差距。 最不可落不的比賽是O3和Kimi K2之間的遭遇,這是最小成日平衡的日子。在揭示了根本弱點的揭示中,Kimi K2在未能在其四次嘗試中產生法律舉動後喪失了所有四場比賽。 沒有一場比賽持續了八個以上的動作。 Analysis suggests Kimi k2 could follow opening theory for a few moves, but as soon as it was in unfamiliar territory, its grasp on the game disintegrated, at times forgetting how pieces move or misreading the location of pieces on the board entirely. [embedded content] In a similarly strange but more competitive match, OpenAI’s o4-mini triumphed over DeepSeek R1. This contest was described as “bizarre,”characterized by moments of strong, human-like opening play that would suddenly devolve into a series of blunders and hallucinations from both sides. Despite this erratic performance, o4-mini demonstrated a superior ability to finish, impressively securing two checkmates—a notable feat in a tournament where many AIs struggled to execute basic tactical sequences. [embedded content] Gemini 2.5 Pro和Claude 4 Opus之間的戰鬥是唯一在Checkmate結尾的遊戲比沒收的遊戲。但是,目前尚不清楚結果是由於雙子座的國際象棋敏銳度與克勞德(Claude)4 Opus的不良比賽所致。 在第一場比賽中,一個關鍵的時刻看到了克勞德4(Claude 4 Opus)匆忙的典當,使其成為巨大的材料,並永久破碎了國王的國王防禦力,使其失敗了。 Gemini 2.5 Pro具有巨大的優勢,也顯示出自己的局限性,在交付最終檢查員的方式上懸掛了零件。 [嵌入式內容] 相反,當天最強和最具說服力的表現來自Xai的Grok 4在與Gemini 2.5 Flash的比賽中。儘管其對手佔據了失誤的份額,但Grok 4在其策略中似乎更加有意,始終如一地識別和資本化了不安全的作品,而不僅僅是等待錯誤。 這種出色的戰術意識的表現引起了其創造者的關注,他的埃隆·馬斯克(Elon Musk)提到了他以前的遊戲的複雜性,宣布了“太簡單”。 Musk 也說 xai“在訓練格羅克4時幾乎沒有努力在訓練grok 4上,稱為相對良好的表現,超越了“副作用”。通用AI
這在7月份生動地證明了這一點,當時馬格努斯·卡爾森(Magnus Carlsen)輕鬆擊敗了chatgpt。勝利後,卡爾森打趣道:“有時我在旅行時會感到無聊,” AI缺乏上下文理解。當前比賽的結果,尤其是Kimi K2的沒收,在更大範圍內呼應了這些限制。 該活動的特色是頂級國際象棋人物的評論,包括GM Hikaru Nakamura和Im Levy Rozman,將獨特的競賽帶給全球受眾。儘管淘汰賽格式是為了展示,但Kaggle還在幕後運行數百場遊戲,以創建持久的排行榜。 這將隨著時間的推移提供更嚴格的基準。正如Kaggle的Meg Risdal所解釋的那樣:“雖然比賽是一種有趣的觀察方式……最終排行榜將代表模型在國際象棋中的嚴格基準,我們隨著時間的推移所維持。 “遊戲競技場計劃擴展到其他遊戲,例如Go和Wayswolf,以測試AI推理的不同方面。比賽將於8月6日進行半決賽。 四分之一決賽攤牌:統治和功能障礙的一天