Il 5 agosto, i migliori modelli di AI di XAI, Google e Openai hanno mostrato le loro abilità strategiche in un nuovo torneo di scacchi. Tenuto nella nuova arena di gioco Kaggle di Google, l’evento mette alla prova le capacità di ragionamento degli AIS per scopi generali. Il primo giorno, Grok 4, Gemini 2.5 Pro, O4-Mini e O3 sono tutti avanzati con sweep 4-0.

Il torneo, progettato da DeepMind, mira a vedere come questi AIS gestiscono una strategia complessa e in tempo reale. Questa mossa segnala un passaggio da parametri di riferimento statici ad ambienti dinamici e competitivi. Offre un nuovo modo per misurare le capacità di risoluzione dei problemi dei principali modelli di linguaggio di grandi dimensioni al mondo.

Un nuovo terreno di prova per il ragionamento AI

Community di scienze dati di Google di Google Kaggle ha lanciato il gioco di gioco a base di Tartomessing”. per testare l’IA. L’iniziativa, in collaborazione con Google DeepMind, affronta le preoccupazioni che i test tradizionali non siano sufficienti per misurare il vero progresso dell’IA e il suo percorso verso l’intelligenza generale artificiale.

INAugural Event, Auguzzer.Augural Event, a tre giorni, Torneo con otto LLM principali. La formazione include Gemini 2.5 Pro e Flash di Google, O3 O3 e O4-Mini, Claude 4 Opus di Antropic, Grok 4 di Xai, Deepseek-R1 e Kimi K2 di Moonshot. I modelli devono fare affidamento sul proprio ragionamento, senza accesso ai motori di scacchi.

Showdown quarti di finale: un giorno di dominanza e disfunzione

L’azione del primo giorno ha visto tutte e quattro le partite dei quarti di finale in modo straordinariamente un lato singolare, ma le storie dietro i punteggi variavano drammaticamente. Mentre i Victors-Grok 4, Gemini 2.5 Pro, O4-Mini e O3-tutti avanzati in modo pulito, la natura delle loro vittorie ha messo in evidenza lacune significative e sorprendenti nelle capacità dei modelli di giocare.

La partita più slanciata è stata l’incontro tra O3 e Kimi K2, che era di gran lunga il giorno inaliata del giorno. In un’esposizione rivelatrice di debolezza fondamentale, Kimi K2 ha rinunciato a tutte e quattro le partite dopo non aver prodotto una mossa legale entro i suoi quattro tentativi.

Nessuno dei giochi è durato più di otto mosse. L’analisi suggerisce che Kimi K2 potrebbe seguire la teoria dell’apertura per alcune mosse, ma non appena si trovava in territorio sconosciuto, la sua comprensione del gioco si è disintegrata, a volte dimenticando come i pezzi si muovono o leggendo errati la posizione dei pezzi sulla scheda completamente. Questo concorso è stato descritto come”bizzarro”, caratterizzato da momenti di una commedia di apertura forte e umana che si sarebbe improvvisamente trasformata in una serie di errori e allucinazioni da entrambe le parti.

[Contenuto incorporato]

La battaglia tra Gemini 2.5 Pro e Claude 4 Opus è stata l’unica a presentare più giochi che terminano in CheckMate che in perdite. Tuttavia, non è chiaro quanto del risultato fosse dovuto al acume degli scacchi di Gemini contro il povero gioco di Claude 4 Opus.

Un momento critico nel primo gioco ha visto Claude 4 Opus fare una spinta frettolosa di quel materiale confuso e ha frantumato in modo permanente le difese del re, accelerando il suo defunto. Anche con un enorme vantaggio, Gemini 2.5 Pro ha mostrato i propri limiti, appesi alla sua strada per consegnare il controllo del controllo finale.

[contenuto incorporato]

Al contrario, le prestazioni più forti e convincenti della giornata sono arrivate dal Grok 4 di Xai nella sua partita contro Gemini 2.5 Flash. Mentre il suo avversario faceva la sua parte di errori, Grok 4 sembrava molto più intenzionale nella sua strategia, identificando costantemente e capitalizzando su pezzi indifesi piuttosto che semplicemente aspettare errori.

La dimostrazione di una consapevolezza tattica superiore ha attirato l’attenzione del suo creatore, Elon Musk, che ha fatto riferimento al suo precedente interpretazione della complessità del gioco, che ha”troppo semplice.”MUSK ha detto anche che Xai”non ha speso quasi senza sforzo”quando si allena Grok 4, definendo la prestazione relativamente buona un”effetto collaterale”. Benchmark per AI per scopi generali

mentre motori specializzati come deepmind di deepmind difage. vasta differenza con LLM per scopi generici. La loro fallibilità è proprio il punto del test, rivelando i punti deboli chiave nella visualizzazione e nella logica strategica.

Ciò è stato dimostrato vividamente a luglio quando Magnus Carlsen ha battuto facilmente Chatgpt. Dopo la vittoria, Carlsen ha scherzato:”A volte mi annoio durante il viaggio”, mettendo in evidenza la mancanza di comprensione contestuale dell’intelligenza artificiale. I risultati del torneo attuale, in particolare la perdita di Kimi K2, fanno eco a queste limitazioni su una scala più ampia.

L’evento presenta un commento delle migliori figure di scacchi, tra cui GM Hikaru Nakamura e Im Levy Rozman, portando il concorso unico a un pubblico globale. Mentre il formato knockout è per lo spettacolo, Kaggle sta anche eseguendo centinaia di giochi dietro le quinte per creare una classifica persistente.

Questo fornirà un punto di riferimento più rigoroso nel tempo. Come ha spiegato Meg Risdal di Kaggle,”Mentre il torneo è un modo divertente per spettare… La classifica finale rappresenterà il rigoroso punto di riferimento delle capacità dei modelli negli scacchi che manteniamo nel tempo”. L’arena di gioco prevede di espandersi ad altri giochi come Go e Werewolf per testare diversi aspetti del ragionamento dell’IA. Il torneo continua con le semifinali il 6 agosto.