Grok 4 și OpenAI de la OpenAI au avansat până în finala Kaggle Game Arena, turneul de șah AI cu profil înalt. În timpul semifinalelor din 6 august, cele două modele au luat căi extrem de diferite către victorie în evenimentul online.
Grok 4 a supraviețuit unui meci de mușcătură de unghii împotriva Gemaini 2.5 Pro Google, care s-a încheiat într-o egalitate de 2-2 și a fost decisă doar de un tensiune „Armageddon” Tiebreaker. Între timp, O3 a trecut pe lângă modelul său de frați, O4-MINI, cu o mătura decisivă de 4-0.
Rezultatele au creat o confruntare finală pe 7 august între modelele de top de la Xai și Openai, în timp ce semifinalistii învinși vor juca pe locul trei. Evenimentele zilei au oferit un studiu fascinant în contrast, subliniind atât performanțele dominante, cât și defectele persistente ale LLM-urilor moderne.
o3 cruise la finala cu finala finală 4-0-0-0 Sweep
Openai O3 și-a asigurat locul în finală cu o performanță previzibilă, dar puternică, măturarea omologului său mai mic, O4-Mini, cu a 4-0 scor . După cum a explicat anterior Openai, O4-Mini este o versiune mai ușoară și mai rapidă a O3, ceea ce face ca dominanța modelului senior să fie un rezultat preconizat.
În timp ce rezultatul general nu a fost o surpriză, cel de-al doilea joc al meciului a fost un moment deosebit. Jucând ca alb, O3 a oferit o uimitoare victorie în miniatură cu 12 mișcări, care a prezentat un rar fulger de strălucire într-un turneu, adesea caracterizat de Blunders.
Jocul a început cu o apărare siciliană standard, dar O4-MINI a scăzut repede. O greșeală la Move 10, urmată de o gafă critică pe Move 11 a permis O3 să execute un coleg de verificare asemănător puzzle-ului, care semăna cu un materie înfundată. Pentru execuția sa impecabilă, O3 a obținut un scor perfect de precizie de 100%, o realizare semnificativă.
Jocurile rămase din meci au urmat o narațiune similară, O4-MINI pierzând în mod constant firul și făcând erori critice sub presiune, permițând O3 să-și transforme avantajele curat și să înainteze meciul de campionat fără să renunțe la un singur punct. Tiebreak împotriva Gemeniului
În contrast puternic, a doua semifinală a fost o aventură haotică și palpitantă. Meciul dintre Grok 4 de la Xai și Google Gemini 2.5 Pro a fost o adevărată luptă înapoi și înapoi, care s-a încheiat într-o remiză de 2-2, împingând concursul într-un tiebreaker dramatic.
jocul lui Grok a fost descris ca „necaracteristic hectic”, o plecare din performanțele sale dominante în sferturile de fundație. Gemeni a fost cel care a atras primul sânge, valorificând o serie de gafe de la Grok pentru a câștiga primul joc. Grok s-a lovit din nou în jocul doi după ce Gemeni a „halucinat” și a returnat favoarea renunțând la regina sa.
[Conținut încorporat]
Cu scorul legat, AIS a tranzacționat din nou câștiguri în următoarele două jocuri, Grok luând conducerea în jocul trei doar pentru ca Gemini să câștige jocul patru și să lase meciul 2-2. Acest impas a stabilit scena pentru un tiebreaker „în stil Armageddon” pentru a decide finalistul.
În acest format, Grok a jucat cu piesele negre și i s-a acordat șanse de remiză, ceea ce înseamnă că o remiză va conta ca o victorie a meciului. Jocul care a urmat a fost un thriller tensionat, plin de oportunități ratate. Gemeni a fost mai bun pentru o mare parte a jocului și, la un moment dat, a ratat un materie clară-folosind exact același model pe care O3 l-a folosit în propriul meci.
mai târziu, într-un joc final câștigător, Gemini și-a dat seama de regina, înmânând aparent victoria lui Grok. Cu un rook împotriva pionilor singuri, victoria a apărut banală. Cu toate acestea, într-o răsucire finală, Grok nu a reușit să-și transforme avantajul masiv, iar jocul s-a încheiat într-o remiză prin repetarea de trei ori. În timp ce anticlimatic, remiza a fost suficientă pentru a asigura locul lui Grok în final.
[Conținut încorporat]
Un test de raționament, nu perfecțiune
Semifinalele consolidează cu putere scopul principal al arenei jocului Kaggle. Turneul este conceput pentru a testa raționamentul strategic al AIS cu scop general, nu pentru a găsi următorul motor specializat de șah. Their fallibility, blunders, and “hallucinations”are the entire point of the evaluation, revealing key weaknesses in strategic logic and visualization.
This stands in sharp contrast to specialized engines like Deepmind alphazero sau Stockfish, care a obținut o capacitate de șah superuman cu ani în urmă. Diferența a fost ilustrată în mod viu atunci când Magnus Carlsen a învins cu ușurință Chatgpt, după care a renunțat: „Uneori mă plictisesc în timp ce călătoresc”, subliniind lipsa profundă a AI de înțelegere contextuală.
avansarea lui Grok este deosebit de notabilă, având în vedere pretențiile de la creatorul său. Elon Musk a afirmat recent că Xai „nu a cheltuit aproape niciun efort pentru șah” atunci când a instruit modelul, sugerând că performanța sa puternică de șah este un efect secundar neașteptat al capacităților sale de raționament mai largi.
În timp ce pachetul knockout oferă divertisment, obiectivul mai mare al Google este să construiască un sistem de evaluare mai riguros. Kaggle organizează sute de jocuri în culise pentru a crea un clasament persistent, care va oferi un punct de referință mai robust de-a lungul timpului.
așa cum a explicat Meg Risdal al lui Kaggle într-o declarație anterioară, „În timp ce turneul este un mod distractiv de a-l face pe Spectată… clasamentul final va reprezenta referința riguroasă a capacităților modelelor de la Ches, pe care îl menținem peste timp.” Această inițiativă își propune să se deplaseze dincolo de reperele statice și să măsoare adevăratele abilități de rezolvare a problemelor în medii dinamice.
Ultima zi a turneului din 7 august va vedea Grok 4 Face O3 pentru campionat, în timp ce Gemeni 2.5 Pro și O4-Mini va concura pentru locul al treilea și al patrulea, încheind un experiment fascinant în motivul AI.