Den 5 augusti visade Top AI-modeller från XAI, Google och OpenAI sina strategiska färdigheter i en ny schackturnering. Evenemanget hålls i Googles nya Kaggle Game Arena och testar resonemangsförmågan för AIS. Den första dagen avancerade Grok 4, Gemini 2.5 Pro, O4-Mini och O3 alla med 4-0 svep.
Turneringen, designad av DeepMind, syftar till att se hur dessa AIS hanterar komplexa, realtidsstrategi. Denna rörelse signalerar en övergång från statiska riktmärken till dynamiska, konkurrenskraftiga miljöer. It offers a new way to measure the problem-solving capabilities of the world’s leading large language models.
A New Proving Ground for AI Reasoning
Google’s data science community Kaggle launched the Game Arena as a transparent platform För att testa AI. The initiative, in partnership with Google DeepMind, addresses concerns that traditional tests are insufficient for measuring true AI progress and its path toward Artificial General Intelligence.
The inaugural event is a three-day, single-elimination chess Turnering med åtta ledande LLM: er. Lineupen inkluderar Googles Gemini 2.5 Pro och Flash, OpenAi’s O3 och O4-Mini, Anthropic’s Claude 4 Opus, Xai’s Grok 4, Deepseek-R1 och Moonshots Kimi K2. Modellerna måste förlita sig på sitt eget resonemang, utan tillgång till schackmotorer.
kvartfinal-showdown: en dag med dominans och dysfunktion
Den första dagens action såg alla fyra kvartfinal matcher slut i fantastiskt ensidigt 4-0-resultat, men berättelserna bakom de varierade dramatiska. Medan segrarna-Grok 4, Gemini 2.5 Pro, O4-Mini och O3-alla avancerade rent, var deras vinster framhävda betydande och överraskande luckor i modellernas förmågor att spela spelet.
Den mest lutande matchen var mötet mellan O3 och Kimi K2, vilket var med långt ifrån den minst balanserade dagen. I en avslöjande visning av grundläggande svaghet förlorade Kimi K2 alla fyra spelen efter att ha misslyckats med att producera ett lagligt drag inom sina fyra försök.
Inget av spelen varade i mer än åtta drag. Analys tyder på att Kimi K2 kunde följa öppningsteorin för några drag, men så snart det var i okänt territorium, är dess grepp om spelet sönderdelat, ibland att glömma hur bitar rör sig eller felaktiga platsen för bitar på brädet helt.
[inbäddat innehåll]
i en liknande konstig men mer konkurrenskraftig match, OpenAi’s o4-mini triumfera över djup. Denna tävling beskrevs som”bisar”, kännetecknad av stunder av starkt, mänskligt liknande öppningsspel som plötsligt skulle utvecklas till en serie missförstånd och hallucinationer från båda sidor.
Trots denna felaktiga prestanda, visade o4-mini en överlägsen förmåga att avsluta, imponerande säkra två kontroller-en anmärkningsvärd prestation i en tournament där många ais-strängar till en överlägsen förmåga att avsluta, imponerande att säkra två checkamater-en anmärkningsvärd prestation i en tournament där många ais-strängar till en överlägsen förmåga att avsluta, imponerande säkra två kontroller-en anmärkningsvärd prestation i en tournament där många ais-STRULLGLED TILL EXECUTE BASICE TAKE PEALTICE SEMALECUTER <[Inbäddat innehåll]
Striden mellan Gemini 2.5 Pro och Claude 4 Opus var den enda som har fler spel som slutade i Checkmate än i förverkning. Det var emellertid oklart hur mycket av resultatet berodde på Geminis schackbidrag kontra Claude 4 Opus dåliga spel.
Ett kritiskt ögonblick i det första spelet såg Claude 4 Opus göra en hastig bonde pressa det felaktiga materialet och permanent krossade kungens försvar och påskyndade sitt nederlag. Även med en enorm fördel visade Gemini 2.5 Pro sina egna begränsningar och hängande bitar på väg att leverera den slutliga checkmate.
[inbäddat innehåll]
Däremot kom dagens starkaste och mest övertygande prestanda från Xai’s Grok 4 i sin match mot Gemini 2.5 Flash. Medan dess motståndare gjorde sin del av missförstånd, verkade Grok 4 mycket mer avsiktlig i sin strategi, och konsekvent identifierade och utnyttjade obefläckade bitar snarare än att bara vänta på fel.
Denna visning av överlägsen taktisk medvetenhet fångade uppmärksamheten hos dess skapare, Elon Musk, som hänvisade till hans tidigare tag på spelet komplexitet, förklarar det”för allt enkelt. Musk sa också att xai”tillbringade nästan ingen ansträngning på schack”när träning grok 4, kallar relativt bra prestanda en”biverkning”. Benchmark för allmänt syfte AI
medan specialiserade motorer som Deepmind’s alphazero
Detta visades levande i juli när Magnus Carlsen lätt slog Chatgpt. Efter segern sade Carlsen,”Jag blir ibland uttråkad när jag reser”, och framhäver AI: s brist på kontextuell förståelse. Den nuvarande turneringens resultat, särskilt Kimi K2: s förverkningar, återger dessa begränsningar i större skala.
Evenemanget innehåller kommentarer från toppschackfigurerna, inklusive GM Hikaru Nakamura och Im Levy Rozman, vilket ger den unika tävlingen till en global publik. Medan knockout-formatet är för show, kör Kaggle också hundratals spel bakom kulisserna för att skapa en ihållande topplista.
Detta kommer att ge ett strängare riktmärke över tid. Som Kaggle’s Meg Risdal förklarade:”Medan turneringen är ett roligt sätt att spektate… kommer den slutliga topplistan att representera det stränga riktmärket för modellernas kapacitet på schack som vi upprätthåller över tid.”Spelarenan planerar att expandera till andra spel som Go och Werewolf för att testa olika aspekter av AI-resonemang. Turneringen fortsätter med semifinalen den 6 augusti.