Kaggle de Google lance une nouvelle”arène de jeu”pour tester la raison pour laquelle les modèles d’IA peuvent raisonner. Le premier événement est un concours d’échecs qui commence en ligne le 5 août. Huit meilleurs modèles d’IA se disputeront, notamment le Gemini 2.5 Pro de Google, l’Openai d’Openai et le Claude Opus 4.
tests . Kaggle travaille avec Chess.com sur l’événement. Les meilleurs joueurs d’échecs comme Hikaru Nakamura et Magnus Carlsen donneront leur analyse des jeux.
Cette initiative représente un changement significatif dans la façon dont l’industrie évalue l’IA. Au lieu de s’appuyer sur des références statiques, Google crée un environnement dynamique pour sonder l’intelligence stratégique des modèles à usage général dans un domaine maîtrisé par Ai. Raisonnement
Le Kaggle Game Arena est un partenariat entre Google Deepmind et la communauté des sciences des données de l’entreprise, Kaggle. Il vise à fournir une plate-forme transparente et robuste pour tester les capacités de raisonnement des modèles de grande langue (LLM) dans des paramètres compétitifs et dynamiques.
Cette décision répond directement à la préoccupation croissante que les repères traditionnels et statiques sont insuffisants pour mesurer véritablement la progression de l’IA. Alors que les modèles ont montré un saut dans le raisonnement sur des tests contrôlés comme l’Olympiade mathématique internationale, de telles évaluations ne capturent pas la pensée stratégique en temps réel.
Google soutient que les jeux complexes sont résilients à ce qu’il appelle”saturation”-le problème d’un test étant”résolu”par une formule standard. La difficulté dans des jeux comme les échecs d’échelle naturellement à mesure que les adversaires s’améliorent, offrant un défi plus rigoureux et continu.
[Contenu intégré]
Ces jeux servent de proxy pour les compétences critiques du monde réel. Les évaluations sonderont les capacités bien au-delà de la correspondance des modèles simples, notamment la planification stratégique, la mémoire, l’adaptation, la tromperie et même la «théorie de l’esprit»-la capacité d’anticiper les pensées d’un adversaire.
La plate-forme est conçue pour la transparence, avec chaque environnement de jeu avec des pages dédiées qui répertorient les classements, les résultats de la correspondance et les règles portes ouvertes. Les classements se mettront à jour dynamiquement car les modèles jouent plus de jeux et que les nouvelles IA se joindront au classement.
En regardant vers l’avenir, l’arène du jeu élargira sa portée. Les compétitions futures comprendront l’ancien jeu de stratégie GO et le jeu de déduction sociale Werewolf, qui est conçu pour tester des compétences telles que la navigation d’informations incomplètes et l’équilibre contre la compétition. La compétition présente une formidable gamme de huit principaux modèles de grande langue, représentant une coupe transversale des rivaux les plus féroces de l’industrie. La liste comprend les Gemini 2.5 Pro et Gemini 2.5 Flash de Google, Openai O3 et O4-Mini, Anthropic’s Claude Opus 4, Xai’s Grok 4, Deepseek-R1 et Moonshot Kimi 2-K2-instruct.
Le Tournoi est à la base de la malouette standard. Chaque jour, Kaggle sera en direct un tour de la compétition, en commençant par quatre affrontements en quart de finale le premier jour, suivi de deux compétitions en demi-finale, et culminant dans un seul match de championnat le troisième jour. Les gagnants de chaque manche seront décidés au cours d’une série de quatre meilleurs jeux.
Les règles sont spécifiquement conçues pour isoler et tester les capacités de raisonnement intrinsèque des modèles. L’IA répondra aux entrées textuelles et il est strictement interdit d’accéder à des outils tiers, ce qui signifie qu’ils ne peuvent pas simplement interroger un puissant moteur d’échecs comme Stockfish pour le mouvement optimal. Pour assurer le fair-play, si un modèle tente une décision illégale, il se verra accorder trois tentatives pour en faire une valide avant qu’elle ne permette le jeu. Chaque mouvement est également soumis à un délai de 60 minutes.
Pour apporter ce concours unique à un public mondial, Kaggle s’est associé à Chess.com et à certaines des figures les plus influentes du monde des échecs. Les jeux simulés seront diffusés en direct sur kaggle.com, la diffusion tentant de montrer comment chaque modèle”raisonne”sur son prochain mouvement et comment il réagit aux tentatives ratées. Hikaru Nakamura Will fournira live, quotidien Des informations expertes sur les stratégies de l’IA. Pendant ce temps, le maître international Levy Rozman, mieux connu sous le nom de Gothamchess, fournira un récapitulatif quotidien avec une analyse approfondie sur sa chaîne YouTube populaire.
Le tournoi se terminera par le verdict d’experts ultime. Champion du monde légendaire Magnus Carlse N fournira un récapitulatif final et partagera ses réflexions sur le match de championnat et la performance globale des concurrents AI, dans un cours de prise de prise: Take YouTube Channel.
Benchmarking General-Urpose Ai
Ce tournoi met en évidence la grande différence entre les LLM à usage général et les échecs spécialisés. Il y a des années, le propre Alphazero de Deepmind, un moteur d’échecs spécialement conçu, a écrasé le meilleur moteur conventionnel, Stockfish. Les LLM de ce tournoi ne devraient pas afficher une compétence surhumaine et impeccable.
En fait, leur faillibilité fait partie du test. Comme l’a noté Chess.com, des modèles comme Chatgpt et Gemini apprennent toujours le jeu et sont connus pour faire des mouvements illégaux ou démissionner dans des situations absurdes. Cela a été manifestement démontré en juillet lorsque Magnus Carlsen a vaincu le chatppt avec désinvolture sans perdre une seule pièce.
Après sa victoire, Carlsen a plaisanté:”Je m’ennuie parfois en voyage.”L’échec de l’IA à reconnaître qu’il jouait le joueur le mieux noté du monde souligne l’écart entre le traitement du traitement et la véritable compréhension contextuelle.
L’arène de jeu Kaggle conservera également un classement persistant. Ce classement sera basé sur des centaines de jeux «en coulisses», offrant une référence plus rigoureuse au fil du temps. Comme l’a expliqué Meg Risdal de Kaggle, «Bien que le tournoi soit une façon amusante de specter… le classement final représentera la référence rigoureuse des capacités des modèles aux échecs que nous maintenons au fil du temps.»