8月5日、Xai、Google、OpenaiのトップAIモデルは、新しいチェストーナメントで戦略的スキルを紹介しました。 Googleの新しいKaggleゲームアリーナで開催されたこのイベントは、汎用AISの推論能力をテストします。初日、Grok 4、Gemini 2.5 Pro、O4-Mini、およびO3はすべて4-0のスイープで進みました。この動きは、静的なベンチマークから動的で競争力のある環境への移行を示しています。世界の主要な大手言語モデルの問題解決機能を測定する新しい方法を提供します。 AIをテストします。イニシアチブは、Google Deepmindとのパートナーシップにおいて、従来のテストは真のAIの進歩と人工的な一般情報への道を測定するには不十分であるという懸念に対処しています。 8つの主要なLLMをフィーチャーしたトーナメント。ラインナップには、GoogleのGemini 2.5 ProとFlash、OpenaiのO3とO4-Mini、Anthropic’s Claude 4 Opus、Xai’s Grok 4、Deepseek-R1、MoonshotのKimi K2が含まれます。モデルは、チェスエンジンへのアクセスなしに、独自の推論に依存する必要があります。 The Victors(Grok 4、Gemini 2.5 Pro、O4-Mini、およびO3)はすべて清潔に進んでいましたが、彼らの勝利の性質は、モデルのゲームをプレイする能力の重要で驚くべきギャップを強調しました。根本的な弱点の明らかな表示で、キミK2は4つの試みの中で合法的な動きを生み出さなかった後、4つのゲームすべてを没収しました。分析は、キミK2がいくつかの動きの開口理論に従うことができることを示唆していますが、それがなじみのない領域に入るとすぐに、ゲームを把握するとすぐに崩壊し、ボード上のピースの位置を完全に移動または誤解する方法を忘れています。このコンテストは、「奇妙な」と説明されており、人間のような強いオープニングプレイの瞬間を特徴とし、突然一連の鈍器や両側から幻覚に陥ります。

Gemini 2.5 ProとClaude 4 Opusの戦いは、没収よりもチェックメイトで終わるゲームを紹介する唯一のものでした。しかし、ジェミニのチェスの洞察力とクロード4オプスの貧弱なプレーによる結果のどれだけが不明であるかは不明でした。

最初のゲームでの重要な瞬間は、クロード4オプスがその鈍い材料を押し上げ、王の防御を永久に打ち砕き、敗北を促進しました。 Gemini 2.5 Proは、大きな利点があるとしても、最終的なチェックメイトを配信するために途中で断片をぶら下げて独自の制限を示しました。対戦相手は失策を共有しましたが、Grok 4はその戦略においてはるかに意図的なように見え、単にエラーを待つのではなく、無防備な作品を一貫して特定して資本化しました。 Musk xaiは「チェスにほとんど努力を費やしなかった」と言った。汎用AIのベンチマーク

このイベントでは、GM Hikaru nakamuraやIm Levy Rozmanを含むトップチェスの人物からの解説を特集し、グローバルな視聴者にユニークなコンテストをもたらします。ノックアウト形式はショー用ですが、Kaggleは舞台裏で何百ものゲームを実行して、永続的なリーダーボードを作成しています。 KaggleのMeg Risdalが説明したように、「トーナメントは楽しい方法ですが、最終的なリーダーボードは、私たちが維持するチェスのモデルの機能の厳格なベンチマークを表します。」ゲームアリーナは、GoやWerewolfなどの他のゲームに拡張して、AI推論のさまざまな側面をテストする予定です。トーナメントは8月6日に準決勝で続きます。