Kaggle di Google sta lanciando una nuova”arena di gioco”per testare quanto possono ragionare i modelli di intelligenza artificiale. Il primo evento è un concorso di scacchi che inizia online il 5 agosto. Otto migliori modelli di AI gareggeranno, tra cui Gemini 2.5 Pro di Google, O4-Mini di Openi e Claude Opus 4 di Antropic.
L’obiettivo è vedere come gestire questo gioco strategico in un gioco di vita, . Kaggle sta lavorando con Chess.com sull’evento. I migliori giocatori di scacchi come Hikaru Nakamura e Magnus Carlsen forniranno la loro analisi dei giochi.
Questa iniziativa rappresenta un cambiamento significativo nel modo in cui l’industria valuta l’IA. Invece di fare affidamento su benchmark statici, Google sta creando un ambiente dinamico per sondare l’intelligenza strategica dei modelli per lo scopo generale in un dominio notoriamente padroneggiato da AI specializzato.
 in contesti competitivi e dinamici. </p><div style=)
Questa mossa affronta direttamente la crescente preoccupazione che i benchmark statici tradizionali siano insufficienti per misurare veramente il progresso dell’intelligenza artificiale. Mentre i modelli hanno mostrato un salto nel ragionamento su test controllati come le olimpiadi matematiche internazionali, tali valutazioni non catturano un pensiero strategico in tempo reale.
Google sostiene che i giochi complessi sono resilienti a ciò che chiama”saturazione”, il problema di un test è”risolto”da una formula standard. La difficoltà in giochi come gli scacchi si ridimensiona naturalmente man mano che gli avversari migliorano, offrendo una sfida più rigorosa e continua.
[contenuto incorporato]
Questi giochi servono come proxy per le abilità critiche del mondo reale. Le valutazioni sonderanno capacità ben oltre la semplice corrispondenza dei modelli, tra cui pianificazione strategica, memoria, adattamento, inganno e persino”teoria della mente”: la capacità di anticipare i pensieri di un avversario.
La piattaforma è costruita per la trasparenza, con ogni ambiente di gioco con pagine dedicate che elencano i risultati di abbinamento e le regole open. Le classifiche si aggiorneranno dinamicamente mentre i modelli giocano più giochi e nuovi AIS si uniscono alle classifiche.
Guardando avanti, l’arena di gioco amplierà il suo ambito. Future competitions will include the ancient strategy game Go and the social deduction game Werewolf, which is designed to test skills like navigating incomplete information and balancing collaboration against competition.
The Inaugural Chess Showdown: Models, Rules, and Star Power
The inaugural event for the new platform is the AI Exhibition Chess Tournament, a three-day spectacle running from August 5-7. La concorrenza presenta una formidabile gamma di otto principali modelli linguistici di grandi dimensioni, che rappresentano una sezione trasversale dei più feroci rivali del settore. Il roster include Gemini 2.5 Pro e Gemini 2.5 Flash di Openi, O3 e O4-Mini, Claude Opus 4 di Antropico, Grok 4 di Xai, Deepseek-R1 e Bracket di Kimi di premi. Ogni giorno, Kaggle livestreamrà un round della competizione, a partire da quattro matchup dei quarti di finale il primo giorno, seguito da due gare di semifinale e culminando in una partita di campionato singolo il terzo giorno. I vincitori di ogni round saranno decisi su una serie di giochi migliori di quattro. L’AIS risponderà agli input basati sul testo e è severamente vietato di accedere a qualsiasi strumento di terze parti, il che significa che non possono semplicemente interrogare un potente motore a scacchi come la scorta per la mossa ottimale. Per garantire un gioco equo, se un modello tenta una mossa illegale, verrà concesso tre tentativi per farne uno valido prima che debba rinunciare al gioco. Ogni mossa è anche soggetta a un limite di tempo di 60 minuti.
Per portare questo concorso unico a un pubblico globale, Kaggle ha collaborato con Chess.com e alcune delle figure più influenti nel mondo degli scacchi. I giochi simulati verranno livellati su kaggle.com, con la trasmissione che tenta di mostrare come ogni modello”ragioni”sulla sua prossima mossa e come risponde ai tentativi falliti.
Grandmaster e top streamer Hikaru Will Dow away, quotidiani, quotidiani a commenti quotidiani! Offrire approfondimenti sugli esperti sulle strategie dell’intelligenza artificiale. Nel frattempo, il maestro internazionale Levy Rozman, meglio noto come Gothamchess, consegnerà un riepilogo quotidiano con analisi approfondita sul suo popolare canale YouTube.
Il torneo si concluderà con il verdetto di Expert. Legendary World Champion magnus carlse n fornirà un riepilogo finale e condividerà le sue opinioni sulla partita di campionato e le prestazioni complessive e le prestazioni complessive: BETTMATHMATHMATHMATHETTHMSHIP e le prestazioni complessive del campionato: BASSATTHMATHMATHMATHMITH SHOTCHMSHIP MATCH-BEADTHMSHIF AI per scopi generali
Questo torneo evidenzia la grande differenza tra LLM per scopi generali e AI di scacchi specializzati. Anni fa, Alphazero di DeepMind, un motore a scacchi appositamente costruito, ha famoso il motore convenzionale superiore, Stockfish. Gli LLM in questo torneo non dovrebbero mostrare un’abilità così impeccabile e sovrumana.
In effetti, la loro fallibilità fa parte del test. Come ha notato Chess.com, modelli come Chatgpt e Gemini stanno ancora imparando il gioco e sono noti per fare mosse illegali o dimettersi in situazioni assurde. Ciò è stato vividamente dimostrato a luglio quando Magnus Carlsen ha sconfitto casualmente Chatgpt senza perdere un singolo pezzo.
Dopo la sua vittoria, Carlsen ha scherzato:”A volte mi annoio durante il viaggio.”L’incapacità dell’intelligenza artificiale di riconoscere che stava giocando il giocatore più votato del mondo sottolinea il divario tra l’elaborazione del linguaggio e la vera comprensione contestuale.
L’arena del gioco Kaggle manterrà anche una classifica persistente. Questa classifica si baserà su centinaia di giochi”dietro le quinte”, che offrono un punto di riferimento più rigoroso nel tempo. Come ha spiegato Meg Risdal di Kaggle,”Mentre il torneo è un modo divertente per spettare… La classifica finale rappresenterà il rigoroso punto di riferimento delle capacità dei modelli negli scacchi che manteniamo nel tempo.”