Grok 4 domină ziua 1 a arenei de șah AI Google, Claude Opus 4 eșuează mizerabil față de Gemini 2.5 Pro, Deepseek spulberat de O4-Mini

Pe 5 august, modelele AI de top de la Xai, Google și OpenAI și-au prezentat abilitățile strategice într-un nou turneu de șah. A avut loc în noul Kaggle Game Arena de la Google, evenimentul testează abilitățile de raționament ale AIS cu scop general. În prima zi, Grok 4, Gemini 2.5 Pro, O4-Mini și O3 au avansat cu 4-0 măturare.

Turneul, proiectat de DeepMind, își propune să vadă cum aceste AIS gestionează strategia complexă, în timp real. Această mișcare semnalează trecerea de la repere statice la medii dinamice și competitive. Oferă o nouă modalitate de a măsura capacitățile de rezolvare a problemelor ale principalelor modele de limbaj mare din lume.

Un nou teren de dovedire pentru AI Motiving

Comunitatea de știință a datelor Google Kaggle a lansat Game Arena ASA ASE A TRANSPAREN Platfon Game Anera.com/game-arena”””_ Blank”> Game Anera.com/game-arena”””_ Blank”> Game Anera.com/Game-arena””””pentru a testa AI. Inițiativa, în parteneriat cu Google DeepMind, abordează îngrijorările că testele tradiționale sunt insuficiente pentru măsurarea progresului AI adevărat și calea sa către inteligența generală artificială.

Turneul de șah cu opt LLM-uri de frunte. Formația include Google Gemini 2.5 Pro și Flash, OpenAI O3 și O4-MINI, Anthropic’s Claude 4 Opus, Xai’s Grok 4, Deepseek-R1 și Kimi K2 de la Moonshot. Modelele trebuie să se bazeze pe propriul raționament, fără acces la motoarele de șah.

sfert de sfert de confruntare: o zi de dominare și disfuncție

acțiunea din prima zi a văzut toate cele patru meciuri din sferturile de finală se încheie în rezultate uimitoare de 4-0, dar poveștile din spatele scorilor, dramatic. În timp ce învingătorii-Grok 4, Gemeni 2.5 Pro, O4-MINI și O3-toate avansate curat, natura victoriilor lor a evidențiat lacune semnificative și surprinzătoare în abilitățile modelelor de a juca jocul.

Cel mai îndepărtat meci a fost întâlnirea dintre O3 și Kimi K2, care a fost de departe cel mai puțin echilibrat al zilei. Într-o prezentare revelatoare a slăbiciunii fundamentale, Kimi K2 a pierdut toate cele patru jocuri după ce nu a reușit să producă o mișcare legală în cele patru încercări ale sale.

Niciunul dintre jocuri nu a durat mai mult de opt mișcări. Analiza sugerează că Kimi K2 ar putea urma teoria deschiderii pentru câteva mișcări, dar de îndată ce a fost pe un teritoriu necunoscut, înțelegerea sa asupra jocului dezintegrat, uneori uitând cum se mișcă piesele sau înșelă că locația pieselor pe tablă în întregime. Acest concurs a fost descris ca fiind „bizar”, caracterizat prin momente de joc puternic, asemănător omului, care s-ar transforma brusc într-o serie de gafe și halucinații din ambele părți.

În ciuda acestei performanțe neregulate, O4-MINI a demonstrat o capacitate superioară de a termina, impresionant, care se asigură impresionant două checkmates-un aspect remarcabil. Conținut]

Bătălia dintre Gemeni 2.5 Pro și Claude 4 Opus a fost singura care a prezentat mai multe jocuri care se termină în Checkmate decât în Forfeits. Cu toate acestea, nu a fost clar cât de mult din rezultat a fost din cauza piesei de șah a lui Gemeni față de jocul slab al lui Claude 4 Opus.

Un moment critic în primul joc a văzut că Claude 4 Opus a făcut o apăsare purtată de pion, care a dat peste cap material și a spulberat definitiv apărarea regelui său, i-a stârnit înfrângerea. Chiar și cu un avantaj masiv, Gemini 2.5 Pro și-a arătat propriile limitări, agățând piese pe drum spre livrarea finală de verificare.

[Conținut încorporat]

În schimb, cea mai puternică și mai convingătoare performanță a venit de la Grok 4 al lui Xai în meciul său împotriva lui Gemini 2.5 Flash. În timp ce oponentul său și-a făcut partea sa de gafe, Grok 4 a apărut mult mai intenționat în strategia sa, identificând și valorificând în mod constant piese nedefinite, mai degrabă decât să aștepte pur și simplu erori.

Această afișare a conștientizării tactice superioare a atras atenția creatorului său, Elon Musk, care a făcut referire Musk a spus, de asemenea, că Xai „a cheltuit aproape niciun efort pe șah”atunci când antrenează 4, apelând la performanța relativ bună”? Nou referință de referință pentru AI de scop general

în timp ce motoare specializate precum Deepmind al lui Alphazero Farmayd=”_ Blank”> Deepmind’s Alphazero faimous, care se află în acest an O diferență vastă cu LLM-uri cu scop general. Căderea lor este tocmai punctul testului, dezvăluind punctele slabe cheie ale vizualizării și logicii strategice.

Acest lucru a fost demonstrat viu în iulie, când Magnus Carlsen a bătut cu ușurință Chatgpt. După victorie, Carlsen a renunțat: „Uneori mă plictisesc în timp ce călătoresc”, subliniind lipsa de înțelegere contextuală a AI. Rezultatele turneului actual, în special a lui Kimi K2, ecou aceste limitări la o scară mai mare.

Evenimentul prezintă comentarii din cifre de șah de top, inclusiv GM Hikaru Nakamura și Im Levy Rozman, aducând concursul unic pentru un public global. În timp ce formatul knockout este pentru spectacol, Kaggle rulează, de asemenea, sute de jocuri în culise pentru a crea un clasament persistent.

Acest lucru va oferi un punct de referință mai riguros în timp. După cum a explicat Meg Risdal al lui Kaggle, „În timp ce turneul este o modalitate distractivă de a specta… clasamentul final va reprezenta punctul de referință riguros al capacităților modelelor la șahul pe care îl menținem în timp”. Game Arena intenționează să se extindă la alte jocuri precum Go și vârcolac pentru a testa diferite fațete ale raționamentului AI. Turneul continuă cu semifinalele pe 6 august

Grok 4 domină ziua 1 a arenei de șah AI Google, Claude Opus 4 eșuează mizerabil față de Gemini 2.5 Pro, Deepseek spulberat de O4-Mini

Published by All Things Windows on August 6, 2025

Un nou teren de dovedire pentru AI Motiving

sfert de sfert de confruntare: o zi de dominare și disfuncție

IT Info

CEO-ul Intel luptă cu două froze, în timp ce Trump cere demisie pe fondul revoltei consiliului de administrație

IT Info

Licență de volum vs. Retail vs. OEM: Înțelegerea modelelor de licențiere ale Microsoft

IT Info

Meta Demos Viitorul VR cu căști Tiramisu și Boba 3

Grok 4 domină ziua 1 a arenei de șah AI Google, Claude Opus 4 eșuează mizerabil față de Gemini 2.5 Pro, Deepseek spulberat de O4-Mini

Published by All Things Windows on August 6, 2025

Un nou teren de dovedire pentru AI Motiving

sfert de sfert de confruntare: o zi de dominare și disfuncție

Related Posts

IT Info

CEO-ul Intel luptă cu două froze, în timp ce Trump cere demisie pe fondul revoltei consiliului de administrație

IT Info

Licență de volum vs. Retail vs. OEM: Înțelegerea modelelor de licențiere ale Microsoft

IT Info

Meta Demos Viitorul VR cu căști Tiramisu și Boba 3