XaiのGrok 4とOpenaiのO3は、Googleの有名なAIチェストーナメントであるKaggle Game Arenaの決勝に進出しました。 8月6日の準決勝で、2つのモデルはオンラインイベントで勝利に至るまでまったく異なる道を歩みました。一方、O3は兄弟モデルであるO4-Miniを過ぎて、決定的な4-0スイープでクルーズを走りました。その日のイベントは、対照的な魅力的な研究を提供し、支配的なパフォーマンスと現代のLLMの持続的な欠陥の両方を強調しています。スイープ

openaiのO3は、予測可能だがパワフルなパフォーマンスでファイナルのスポットを確保し、より小さなカウンターパートであるo4-miniを掃引し、href=”https://www.chess.com/news/view/kaggle-game-arena-hess-2025-day-2 Openaiが以前に説明したように、O4-MiniはO3のより軽い、より高速なバージョンであり、シニアモデルの優位性を予想される結果にしています。白としてプレーしたO3は、しばしば失態を特徴とするトーナメントで珍しい輝きを披露する見事な12-Moveミニチュアの勝利をもたらしました。移動10の間違いに続いて、移動11の重要な失敗により、O3は窒息する仲間に似たパズルのようなチェックメイトを実行できました。完璧な実行のために、O3は完全な100%精度スコア、重要な成果を獲得しました。 gemini

厳しいコントラストでは、2番目の準決勝は混oticとしたスリリングな出来事でした。 XaiのGrok 4とGoogleのGemini 2.5 Proの試合は、2-2の引き分けで終了した真の前後の戦いであり、コンテストを劇的なタイブレーカーに押し込みました。最初のゲームに勝つためにグロックからの一連の鈍器を利用して、最初の血を描いたのはジェミニでした。 Geminiの「幻覚」の後、Grokはゲーム2に戻り、女王をあきらめて好意を返しました。このデッドロックは、ファイナリストを決定するために「ハルマゲドンスタイルの」タイブレーカーの舞台を設定しました。その後のゲームは、機会を逃した緊張したスリラーでした。 Geminiはゲームの大部分で優れており、ある時点では、O3が独自の試合で使用したのとまったく同じパターンを使用して、明確なMate-in-Oneを逃しました。 

後の勝利のエンドゲームで、ジェミニはその女王を失敗させ、勝利をグロックに渡したようです。孤独なポーンに対するルークで、勝利は些細なことに見えました。しかし、最終的にひねりを加えて、Grokはその大きな利点を変換することができず、ゲームは3つの繰り返しで引き分けに終わりました。抗クライマックスですが、ドローはファイナルでグロックのスポットを確保するのに十分でした。トーナメントは、次の専門チェスエンジンを見つけるためではなく、汎用AISの戦略的推論をテストするように設計されています。それらの誤り、鈍器、および「幻覚」は評価の全体的なポイントであり、戦略的論理と視覚化の重要な弱点を明らかにします。ターゲット=”_ blank”> deepmindのアルファゼロまたはストックフィッシュは、数年前に超人的なチェス能力を達成しました。 Magnus CarlsenがChatGptを簡単に破ったとき、ギャップは鮮明に説明され、その後、彼は「旅行中に退屈することがあります」と言いました。AIの文脈的理解の深い欠如を強調しています。 Elon Muskは最近、Xaiがモデルをトレーニングする際に「チェスにほとんど努力を費やさなかった」と述べ、その強力なチェスのパフォーマンスはより広い推論能力の予期しない副作用であることを示唆しています。

ノックアウトブラケットはエンターテイメントを提供しますが、Googleのより大きな目標はより厳格な評価システムを構築することです。 Kaggleは舞台裏で何百ものゲームを実行して、時間の経過とともにより堅牢なベンチマークを提供する永続的なリーダーボードを作成しています。このイニシアチブは、静的ベンチマークを超えて動的な環境で真の問題解決スキルを測定することを目的としています。

8月7日のトーナメントの最終日には、チャンピオンシップのためにGrok 4 Face O3が見られますが、Gemini 2.5 ProとO4-MiniはAIの合理的な実験で3番目と4位を競います。

Categories: IT Info