Xai的Grok 4和Openai的O3已晉升為Google高調的AI國際象棋錦標賽的Kaggle Game Arena的決賽。在8月6日的半決賽中,這兩種車型在在線賽事中取得了巨大的勝利。

Grok 4在與Google的Google的Gemini 2.5 Pro的指甲比賽中倖存下來,該比賽以2-2的比分結束,僅由緊張的“ Artageddon”搶斷者決定。同時,O3以果斷的4-0掃球駛過其兄弟姐妹模型O4-Mini。

結果在8月7日在XAI和OpenAI的頂級模型之間進行了最終攤牌,而被擊敗的半決賽選手則將在第三名。當天的事件提供了一項有趣的對比研究,重點介紹了現代LLMS的主要表現和持續缺陷。

掃描

OpenAI的O3以可預測但有力的性能確保了其在決賽中的位置,並用

雖然總體結果並不令人驚訝,但第二場比賽是傑出的時刻。 O3扮演白色的比賽,帶來了令人驚嘆的12個摩根微型勝利,在經常以失誤為特徵的比賽中展示了罕見的光彩。

比賽以標準的西西里防守開始,但O4-Mini很快就步履蹣跚。移動10的錯誤隨後發生了重大失誤11,O3使O3執行類似於窒息伴侶的拼圖式的檢查員。 For its flawless execution, o3 earned a perfect 100% accuracy score, a significant achievement.

The remaining games in the match followed a similar narrative, with o4-mini consistently losing the thread and making critical errors under pressure, allowing o3 to convert its advantages cleanly and advance to the championship match without dropping a single point.

[embedded content]

Grok Survives Dramatic在鮮明的對比中,對雙子雙子座的搶斷

,第二個半決賽是混亂而令人興奮的事情。 Xai的Grok 4和Google的Gemini 2.5 Pro之間的比賽是一場真正的來回戰鬥,以2-2的比分結束,將比賽推向了戲劇性的勝利者。

Grok的戲劇被描述為“不典型的忙碌”,這是從四分之一八分之一的八分之列中佔據主導地位。正是雙子座吸引了第一本血液,利用了Grok的一系列失誤來贏得第一場比賽。格羅克(Grok)在雙子座“幻覺”之後,在第二場比賽中擊敗了第二場比賽,並通過放棄女王。

[嵌入式內容]

並以比分並列,在接下來的兩場比賽中再次交易贏得勝利,格羅克(Grok)在第三場比賽中獲得領先優勢,只有雙子隊才能贏得比賽的四分之二,並贏得了比賽的四分之二,並取得了2-2-2的比賽。這個僵局為“大決戰”的決勝局奠定了基礎,以決定決賽入圍者。

以這種格式,格羅克(Grok)與黑色作品一起演奏,並被授予抽籤賠率,這意味著平局將算作比賽的勝利。隨後的遊戲是一個充滿錯過機會的緊張驚悚片。雙子座在比賽的大部分時間裡都更好,並且有一次錯過了一個清晰的伴侶,而O3在自己的比賽中使用了完全相同的模式。 

後來在一個勝利的最后賽場中,雙子座大錯了女王,似乎將勝利傳給了格羅克。在反對寂寞的典當的陣陣陣陣比賽中,勝利顯得微不足道。但是,最後,格羅克(Grok)未能轉變其巨大的優勢,遊戲以三倍重複的平局結束。雖然具有抗氣性,但抽獎足以確保Grok在決賽中的位置。

[嵌入式內容]

對推理的測試,而不是完美的

半決賽有力地增強了Kaggle遊戲領域的核心目的。該比賽旨在測試通用AIS的戰略推理,而不是找到下一個專業的國際象棋引擎。 Their fallibility, blunders, and “hallucinations”are the entire point of the evaluation, revealing key weaknesses in strategic logic and visualization.

This stands in sharp contrast to specialized engines like DeepMind的alphazero 或Stockfish,它在幾年前就達到了超人的國際象棋能力。當馬格努斯·卡爾森(Magnus Carlsen)輕鬆擊敗喬查特(Chatgpt)時,他打趣道:“我有時在旅行時會感到無聊”,這是生動說明的。埃隆·馬斯克(Elon Musk)最近表示,XAI在訓練模型時“幾乎不花在國際象棋上”,這表明其強大的國際象棋性能是其更廣泛的推理能力的意外副作用。

雖然淘汰賽括號提供了娛樂,但Google的更大目標是建立更嚴格的評估系統。 Kaggle正在幕後運行數百場遊戲,以創建一個持久的排行榜,隨著時間的流逝,它將提供更強大的基準。

正如Kaggle的Meg Risdal在先前的聲明中解釋的那樣,“錦標賽是一種有趣的方式……雖然最終的排行榜將代表模型的嚴格基準,這代表了我們在Chess上的嚴格基準。該計劃旨在超越靜態基準並衡量動態環境中的真正解決問題的技能。

8月7日錦標賽的最後一天將使Grok 4面對O3參加冠軍,而Gemini 2.5 Pro和O4-Mini則將競爭第三和第四位,結束了一個有趣的實驗,在AI I PRACIANICTINCE中競爭。

Categories: IT Info