Xai’s Grok 4 och Openais O3 har gått vidare till finalen i Kaggle Game Arena, Googles högprofilerade AI Chess-turnering. Under semifinalen den 6 augusti tog de två modellerna starkt olika vägar till seger i online-evenemanget.
Grok 4 överlevde en spikbitande match mot Googles Gemini 2.5 Pro, som slutade i ett 2-2-slips och beslutades bara av en spänd”Armageddon”tiebreaker. Samtidigt kryssade O3 förbi sin syskonmodell, O4-Mini, med ett avgörande 4-0-svep.
Resultaten skapade en sista showdown den 7 augusti mellan de bästa modellerna från XAI och OpenAI, medan de besegrade semifinalisterna kommer att spela för tredje plats. Dagens händelser gav en fascinerande studie i kontraster och framhöll både dominerande föreställningar och de ihållande bristerna i moderna LLMS.
OpenAI: s O3 säkrade sin plats i finalen med en förutsägbar men kraftfull prestanda, svepande sin mindre motpart, O4-mini, med en 4-0-0-poäng Som OpenAI tidigare har förklarat är O4-Mini en lättare, snabbare version av O3, vilket gjorde seniormodellens dominans till ett förväntat resultat.
Medan det totala resultatet inte var en överraskning, var matchen i matchen ett framstående ögonblick. Spelade som vit levererade O3 en fantastisk miniatyrseger med 12 rörelser som visade en sällsynt blixt av glans i en turnering som ofta kännetecknades av missförstånd.
Spelet började med ett standard sicilianskt försvar, men O4-Mini vaklade snabbt. Ett misstag på Move 10 följt av en kritisk BLUND på Move 11 tillät O3 att utföra en pusselliknande checkmate som liknade en kvävd kompis. För sitt felfria exekvering fick O3 en perfekt 100% noggrannhetspoäng, en betydande prestation.
De återstående spelen i matchen följde en liknande berättelse, med o4-mini som konsekvent tappar tråden och gör kritiska fel under press, vilket tillåter O3 att konvertera sina fördelar rent och gå vidare till mästerskapet utan att tappa en enda punkt. Tiebreak mot Gemini
I skarp kontrast var den andra semifinalen en kaotisk och spännande affär. Matchen mellan Xai’s Grok 4 och Googles Gemini 2.5 Pro var en riktig fram och tillbaka strid som slutade i en 2-2 oavgjort och pressade tävlingen till en dramatisk tiebreaker.
groks spel beskrevs som”okarakteristiskt hektiskt”, en avgång från dess dominerande prestanda i kvartfinalen. Det var Gemini som drog första blodet och utnyttjade en serie missförstånd från Grok för att vinna det första spelet. Grok slog tillbaka i Game Two efter att Gemini”hallucinerade”och gav tillbaka favören genom att ge upp sin drottning.
[inbäddat innehåll]
Med poängen bundna, handlade AIS igen i de kommande två matcherna, med Grok som tog ledningen i Game Three bara för Gemini för att vinna Game Four och Level the Match 2-2. Denna dödläge satte scenen för en”Armageddon-stil”tiebreaker för att bestämma finalisten.
I detta format spelade Grok med de svarta bitarna och beviljades dragande odds, vilket innebär att oavgjort skulle räknas som en matchvinst. Spelet som följde var en spänd thriller fylld med missade möjligheter. Gemini var bättre för stora delar av spelet och missade vid en tidpunkt en tydlig kompis-i-ett-med exakt samma mönster som O3 hade använt i sin egen match.
Senare i ett vinnande slutspel blundrade Gemini sin drottning och till synes överlämnade segern till Grok. Med en krök mot ensamma bonde verkade segern trivial. I en sista twist misslyckades Grok emellertid med att konvertera sin enorma fördel, och spelet slutade i oavgjort av tre gånger upprepning. Medan antiklimaktiskt räckte dragningen för att säkra Grok’s plats i finalen.
[inbäddat innehåll]
Ett test av resonemang, inte perfektion
Semifinalen förstärker kraftfullt kärnan i Kaggle Game Arena. Turneringen är utformad för att testa det strategiska resonemanget för AIS för allmänt syfte, inte för att hitta nästa specialiserade schackmotor. Deras fallbarhet, missförstånd och”hallucinationer”är hela poängen med utvärderingen, vilket avslöjar viktiga svagheter i strategisk logik och visualisering.
Detta står i skarp kontrast till specialiserade motorer som DeepMind’s Alphazero eller Stockfish, som uppnådde övermänsklig schackförmåga för år sedan. Klyftan illustrerades levande när Magnus Carlsen lätt besegrade Chatgpt, varefter han sade:”Jag blir ibland uttråkad när jag reser,”belyser AI: s djupa brist på kontextuell förståelse.
Groks framsteg är särskilt anmärkningsvärt med tanke på påståenden från dess skapare. Elon Musk uttalade nyligen att XAI”tillbringade nästan ingen ansträngning på schack”när man tränar modellen, vilket tyder på att dess starka schackprestanda är en oväntad biverkning av dess bredare resonemang. Kaggle kör hundratals spel bakom kulisserna för att skapa en ihållande topplista som kommer att erbjuda ett mer robust riktmärke över tid.
Som Kaggle’s Meg Risdal förklarade i ett tidigare uttalande,”Medan turneringen är ett roligt sätt att spectate… den slutliga Leader-tavlan kommer att representera det rigorösa benchmark för modellernas kapacitet till Chess till Chess som vi underhåller över att vi underhåller det som vi håller tid att stänga… den slutliga Leader-tavlan kommer att representera det rigorösa riktmärket för modellernas kapacitet till Chess At Chess som vi håller på att underhålla det vi underhåller… Detta initiativ syftar till att gå utöver statiska riktmärken och mäta verkliga problemlösningsförmågor i dynamiska miljöer.
Den sista dagen för turneringen den 7 augusti kommer att se grok 4 ansikte o3 för mästerskapet, medan Gemini 2.5 Pro och O4-mini kommer att tävla om tredje och fjärde plats, slutar ett fascinerande experiment med ett skäl.