Noong Agosto 5, ang mga nangungunang mga modelo ng AI mula sa Xai, Google, at OpenAI ay ipinakita ang kanilang mga istratehikong kasanayan sa isang bagong paligsahan sa chess. Gaganapin sa bagong arena ng laro ng Kaggle ng Google, sinusuri ng kaganapan ang mga kakayahan sa pangangatuwiran ng pangkalahatang-layunin na AIS. Sa unang araw, ang Grok 4, Gemini 2.5 Pro, O4-Mini, at O3 lahat ay advanced na may 4-0 sweep. Ang paglipat na ito ay nagpapahiwatig ng isang paglipat mula sa mga static na benchmark hanggang sa mga dynamic, mapagkumpitensyang kapaligiran. Nag-aalok ito ng isang bagong paraan upang masukat ang mga kakayahan sa paglutas ng problema ng mga nangungunang malalaking modelo ng wika sa mundo. upang subukan ang AI. Ang inisyatibo, sa pakikipagtulungan sa Google DeepMind, tinutukoy ang mga alalahanin na ang mga tradisyunal na pagsubok ay hindi sapat para sa pagsukat ng tunay na pag-unlad ng AI at ang landas nito patungo sa artipisyal na pangkalahatang katalinuhan. paligsahan na nagtatampok ng walong nangungunang mga LLM. Kasama sa lineup ang gemini 2.5 pro at flash ng Google, OpenAi’s O3 at O4-Mini, Claude 4 Opus ng Anthropic, Grok 4, Deepseek-R1, at Kimi K2 ng Moonshot. Ang mga modelo ay dapat umasa sa kanilang sariling pangangatuwiran, nang walang pag-access sa mga makina ng chess. Habang ang mga Victors-GroK 4, Gemini 2.5 Pro, O4-Mini, at O3-lahat ay advanced na malinis, ang likas na katangian ng kanilang mga panalo ay nag-highlight ng makabuluhan at nakakagulat na mga gaps sa mga kakayahan ng mga modelo upang i-play ang laro. Sa isang nagbubunyag na pagpapakita ng pangunahing kahinaan, tinanggal ni Kimi K2 ang lahat ng apat na mga laro matapos na mabigo na gumawa ng isang ligal na paglipat sa loob ng apat na pagtatangka nito.
Wala sa mga laro ang tumagal ng higit sa walong gumagalaw. Ang pagtatasa ay nagmumungkahi na si Kimi K2 ay maaaring sundin ang pagbubukas ng teorya para sa ilang mga galaw, ngunit sa sandaling ito ay nasa hindi pamilyar na teritoryo, ang pagkakahawak nito sa laro ay nawala, kung minsan ay nakakalimutan kung paano gumagalaw o ang maling pag-iwas sa lokasyon ng mga piraso sa board nang buo. Ang paligsahan na ito ay inilarawan bilang”kakaiba,”na nailalarawan sa mga sandali ng malakas, tulad ng pagbubukas ng tao na biglang magbubunga sa isang serye ng mga blunders at guni-guni mula sa magkabilang panig.
Ang labanan sa pagitan ng Gemini 2.5 Pro at Claude 4 Opus ay ang isa lamang na nagtatampok ng higit pang mga laro na nagtatapos sa Checkmate kaysa sa mga forfeits. Gayunpaman, hindi malinaw kung magkano ang resulta dahil sa chess acumen ni Gemini kumpara sa hindi magandang paglalaro ni Claude 4 Opus. Kahit na sa isang napakalaking kalamangan, ang Gemini 2.5 Pro ay nagpakita ng sariling mga limitasyon, nakabitin ang mga piraso sa paraan upang maihatid ang pangwakas na checkmate. Habang ang kalaban nito ay gumawa ng bahagi ng mga blunders, ang Grok 4 ay lumitaw na higit na sinasadya sa diskarte nito, na patuloy na nagpapakilala at nagbabayad sa mga hindi natukoy na mga piraso sa halip na maghintay lamang ng mga pagkakamali. Musk sinabi din Na ang xai ay”ginugol ng halos walang pagsisikap sa chess”kapag ang pagsasanay sa grook 4, na tumatawag sa medyo mahusay na pagganap ng isang”side effect”. Benchmark para sa pangkalahatang layunin ai Ang malawak na pagkakaiba sa mga pangkalahatang layunin na LLM. Ang kanilang pagkahulog ay tiyak na punto ng pagsubok, na nagbubunyag ng mga pangunahing kahinaan sa paggunita at estratehikong lohika. Matapos ang panalo, huminto si Carlsen,”Minsan nababato ako habang naglalakbay,”na itinampok ang kakulangan ng pag-unawa sa konteksto ng AI. Ang mga resulta ng kasalukuyang paligsahan, lalo na ang mga forfeits ni Kimi K2, ay nagbubunyi sa mga limitasyong ito sa isang mas malaking sukat. Habang ang format ng knockout ay para sa palabas, si Kaggle ay tumatakbo din ng daan-daang mga laro sa likod ng mga eksena upang lumikha ng isang patuloy na leaderboard.
Magbibigay ito ng isang mas mahigpit na benchmark sa paglipas ng panahon. Tulad ng ipinaliwanag ng Meg Risdal ni Kaggle,”Habang ang paligsahan ay isang masayang paraan upang mag-isip… ang pangwakas na leaderboard ay kumakatawan sa mahigpit na benchmark ng mga kakayahan ng mga modelo sa chess na pinapanatili natin sa paglipas ng panahon.”Plano ng Game Arena na palawakin ang iba pang mga laro tulad ng Go at Werewolf upang subukan ang iba’t ibang mga facet ng AI na pangangatuwiran. Ang paligsahan ay nagpapatuloy sa mga semifinal sa Agosto 6.