GoogleのKaggleは、AIモデルがどの程度適切に推論できるかをテストするために、新しい「ゲームアリーナ」を起動しています。最初のイベントは、8月5日にオンラインで開始されるチェスコンテストです。GoogleのGemini 2.5 Pro、OpenaiのO4-Mini、AnthropicのClaude Opus 4を含む8つのトップAIモデルが競います。簡単なテスト。 KaggleはイベントでChess.comと協力しています。 Hikaru nakamuraやMagnus Carlsenのようなトップチェスプレーヤーは、ゲームの分析を提供します。

このイニシアチブは、業界がAIを評価する方法の大きな変化を表しています。静的ベンチマークに依存するのではなく、Googleは特殊なAIによって有名にマスターされたドメインの汎用モデルの戦略的インテリジェンスを調査するための動的環境を作成しています。推論

Kaggle Game Arenaは、Google Deepmindと同社のデータサイエンスコミュニティKaggleとのパートナーシップです。競争力のある動的な設定で大規模な言語モデル(LLMS)の推論機能をテストするための透明で堅牢なプラットフォームを提供することを目的としています。モデルは、国際的な数学的オリンピアードのような制御されたテストの推論に飛躍することを示していますが、このような評価はリアルタイムの戦略的思考を捉えていません。

Googleは、複雑なゲームは「飽和」と呼ばれるものに復元力があると主張しています。チェスのようなゲームの難しさは、対戦相手が改善するにつれて自然に拡大し、より厳格で継続的な課題を提供します。評価は、戦略的計画、記憶、適応、欺ception、さらには「心の理論」など、単純なパターンマッチングをはるかに超えたプローブ機能をプローブします。これは、相手の考えを予測する能力です。モデルがより多くのゲームをプレイし、新しいAIがランキングに参加するにつれて、リーダーボードは動的に更新されます。将来の競争には、古代の戦略ゲームGOとソーシャル控除ゲームWADEWOLFが含まれます。これは、不完全な情報のナビゲーションや競争とのコラボレーションのバランスをとるなどのスキルをテストするように設計されています。

最初のチェス対決:モデル、ルール、およびスターパワー、スターパワー、

新しいプラットフォームの展示会の展示会の新しいプラットフォームのイベントこの競争は、業界で最も激しいライバルの断面を表す8つの主要な大手言語モデルの手ごわいラインナップを特徴としています。名簿には、GoogleのGemini 2.5 ProとGemini 2.5 Flash、OpenaiのO3とO4-Mini、Anthropic’s Claude Opus 4、Xai’s Grok 4、Deepseek-R1、およびMoonshotのKimi 2-K2-Instruct。毎日、Kaggleは1日目の4分の1ファイナルマッチアップから始まり、2回の準決勝コンテストを続け、3日目の1回のチャンピオンシップマッチで頂点に達し、毎日1ラウンドの競技をライブストリーミングします。各ラウンドの受賞者は、ベスト4のシリーズのゲームで決定されます。

ルールは、モデルの本質的な推論能力を分離してテストするために特別に設計されています。 AISはテキストベースの入力に応答し、サードパーティのツールにアクセスすることを厳しく禁じられています。つまり、最適な動きのためにストックフィッシュのような強力なチェスエンジンを単純に照会することはできません。公正なプレイを確保するために、モデルが違法な動きを試みた場合、ゲームを没収する前に有効なレトリを作成するために3回のレトリを許可されます。各動きには60分間の時間制限があります。シミュレートされたゲームはkaggle.comでライブストリーミングされ、放送は各モデルが次の動きについて「理由」をどのように「理由」し、失敗した試みにどのように反応するかを示しようとします。 AIの戦略に関する専門家の洞察を提供します。一方、GothamChessとして知られる国際的なマスターLevy Rozmanは、人気のあるYouTubeチャンネルで詳細な分析で毎日の要約を提供します。伝説的な世界チャンピオンマグナスカールス nは最終的な要約を提供し、チャンピオンシップの試合とAI競合他社の全体的なパフォーマンスを共有し、YouTubeをテイクしたストリームをテイクします

汎用ai

このトーナメントは、汎用LLMと専門のチェスAIの大きな違いを強調しています。数年前、専用のチェスエンジンであるDeepmind自身のAlphazeroは、有名な従来のエンジンであるストックフィッシュを有名に粉砕しました。このトーナメントのLLMは、このような完璧で超人的なスキルを表示することは期待されていません。

実際、それらの誤りはテストの一部です。 Chess.comが指摘したように、ChatGptやGeminiのようなモデルはまだゲームを学んでおり、不条理な状況で違法な動きや辞任をすることが知られています。これは、マグナス・カールセンが1つのピースを失うことなくChatGptをさりげなく破った7月に鮮明に実証されました。世界のトップ評価のプレーヤーをプレイしていたAIが認識できなかったことは、言語の処理と真のコンテキスト理解のギャップを強調しています。

Kaggleゲームアリーナは、永続的なリーダーボードを維持します。このランキングは、何百もの「舞台裏」ゲームに基づいており、より厳格なベンチマークを時間の経過とともに提供します。 KaggleのMeg Risdalが説明したように、「トーナメントは楽しい方法ですが、最終的なリーダーボードは、私たちが時間をかけて維持するチェスのモデルの機能の厳しいベンチマークを表します。」

Categories: IT Info