Xai’s Grok 4 og Openais O3 har avansert til finalen i Kaggle Game Arena, Googles høyprofilerte AI-sjakkturnering. Under semifinalen 6. august tok de to modellene sterkt forskjellige veier til seier i online-arrangementet.

GROK 4 overlevde en spikerbittkamp mot Googles Gemini 2.5 Pro, som endte i et 2-2-uavgjort og bare ble bestemt av en anspent “Armageddon”-bindeser. I mellomtiden kjørte O3 forbi søskenmodellen, O4-mini, med et avgjørende 4-0-sveip.

Resultatene satte opp et endelig showdown 7. august mellom toppmodellene fra Xai og Openai, mens de beseirede semifinalistene vil spille for tredjeplassen. Dagens hendelser ga en fascinerende studie i kontraster, og fremhevet både dominerende forestillinger og de vedvarende feilene i moderne LLMS.

Mens det samlede resultatet ikke var en overraskelse, var kampens andre spill et fremtredende øyeblikk. O3 spilte som hvit, og leverte en fantastisk 12-move miniatyrseier som viste en sjelden glimt av glans i en turnering som ofte er preget av tabber.

Spillet begynte med et standard siciliansk forsvar, men O4-mini vaklet raskt. En feil på Move 10 etterfulgt av en kritisk tabbe på Move 11 tillot O3 å utføre en puslespilllignende sjekkkamerat som lignet på en kvalt kompis. For sin feilfrie utførelse tjente O3 en perfekt 100% nøyaktighetspoeng, en betydelig prestasjon.

De resterende spillene i kampen fulgte en lignende fortelling, med O4-mini som konsekvent mistet tråden og gjorde kritiske feil under press, slik at O3 kan konvertere sine fordeler rent og fremme til mesterskapet.

I sterk kontrast var den andre semifinalen en kaotisk og spennende affære. Kampen mellom Xai’s Grok 4 og Googles Gemini 2.5 Pro var en ekte frem og tilbake-kamp som endte i en 2-2 uavgjort, og presset konkurransen inn i en dramatisk tiebreaker.

Groks spill ble beskrevet som”uncharacteristical hektisk,”en avgang fra sin dominerende ytelse i kvartfinalene. Det var Gemini som trakk første blod, og utnyttet en serie tabber fra Grok for å vinne det første spillet. Grok slo tilbake i spill to etter at Gemini “hallusinerte” og returnerte fordelen ved å gi fra seg dronningen.

[innebygd innhold]

Med poengsummen bundet, handlet AIS seire igjen i de to neste kampene, med Grok som tok ledelsen i Game Three bare for Gemini for å vinne Game Four og jevne kampen 2-2. Denne dødvakt satte scenen for en”Armageddon-stil”tiebreaker for å avgjøre finalisten.

I dette formatet spilte GROK med de svarte stykkene og fikk treknings odds, noe som betyr at uavgjort ville telle som en kampseier. Spillet som fulgte var en spent thriller fylt med tapte muligheter. Gemini var bedre for store deler av spillet, og på et tidspunkt gikk glipp av en klar kompis-i-ett-ved å bruke nøyaktig samme mønster som O3 hadde ansatt i sin egen kamp. 

senere i et vinnende sluttspill, tappet Gemini sin dronning, og tilsynelatende ga seieren til Grok. Med en rook mot ensomme bonde virket seieren triviell. I en siste vri klarte imidlertid ikke GROK å konvertere sin enorme fordel, og spillet endte i uavgjort ved tredoblet repetisjon. Mens antiklimaktisk var trekningen nok til å sikre GROKs plass i finalen.

[innebygd innhold]

En test av resonnement, ikke perfeksjon

Semifinalen forsterker kjerneformålet med Kaggle-spillarenaen. Turneringen er designet for å teste den strategiske resonnementet til generell AIS, for ikke å finne den neste spesialiserte sjakkmotoren. Deres fallbarhet, tabber og”hallusinasjoner”er hele poenget med evalueringen, og avslører viktige svakheter i strategisk logikk og visualisering.

Dette står i skarp kontrast til spesialiserte motorer som DeepMind’s Alphazero eller Stockfish, som oppnådde Superhuman Chess-evne for mange år siden. Gapet ble levende illustrert da Magnus Carlsen lett beseiret Chatgpt, hvoretter han spurte:”Jeg blir noen ganger lei mens jeg reiser”, og fremhever AIs dyptgripende mangel på kontekstuell forståelse.

Groks fremskritt er spesielt bemerkelsesverdig gitt påstandene fra skaperen. Elon Musk uttalte nylig at Xai “brukte nesten ingen anstrengelser på sjakk” når han trente modellen, og antydet at dens sterke sjakkprestasjoner er en uventet bivirkning av dens bredere resonnementfunksjoner.

Mens knockout-braketten gir underholdning, er Googles større mål å bygge et mer streng evalueringssystem. Kaggle kjører hundrevis av spill bak kulissene for å lage et vedvarende toppliste som vil tilby et mer robust målestokk over tid.

som Kaggle’s Meg Risdal forklarte i en tidligere uttalelse,”Mens turneringen er en morsom måte å utpeke… den endelige topplisten vil representere den strenge benchmarken på modellene som er kapabiliteter på Chan på Chat. Dette initiativet tar sikte på å gå utover statiske benchmarks og måle ekte problemløsningsevner i dynamiske miljøer.

Den siste dagen i turneringen 7. august vil se GROK 4 Face O3 for mesterskapet, mens Gemini 2.5 Pro og O4-mini vil konkurrere om tredje og fjerde plass, og avslutte et fascinerende eksperiment med en grunn.

Categories: IT Info