Kaggle do Google está lançando uma nova”Arena de jogo”para testar o quão bem os modelos de IA podem raciocinar. O primeiro evento é um concurso de xadrez que começa on-line em 5 de agosto. Oito modelos de IA principais competirão, incluindo o Gemini 2.5 Pro do Google, o OpenAi do O4-Mini e o Claude Opus 4 do Antrópico. testes . Kaggle está trabalhando com o Chess.com no evento. Os principais jogadores de xadrez como Hikaru Nakamura e Magnus Carlsen fornecerão sua análise dos jogos.
Esta iniciativa representa uma mudança significativa na maneira como a indústria avalia a IA. Em vez de depender de referências estáticas, o Google está criando um ambiente dinâmico para investigar a inteligência estratégica de modelos de uso geral em um domínio famoso por IA especializada. Raciocínio
A arena do jogo Kaggle é uma parceria entre o Google DeepMind e a comunidade de ciências de dados da empresa, Kaggle. Ele visa fornecer uma plataforma transparente e robusta para testar os recursos de raciocínio de grandes modelos de linguagem (LLMS) em configurações dinâmicas e competitivas. Embora os modelos tenham mostrado um salto no raciocínio em testes controlados como a Olimpíada Matemática Internacional, essas avaliações não capturam o pensamento estratégico em tempo real. A dificuldade em jogos como o xadrez naturalmente as escalas à medida que os oponentes melhoram, oferecendo um desafio mais rigoroso e contínuo. As avaliações investigarão os recursos muito além da correspondência simples de padrões, incluindo planejamento estratégico, memória, adaptação, engano e até”teoria da mente”-a capacidade de antecipar os pensamentos de um oponente. As tabelas de classificação serão atualizadas dinamicamente à medida que os modelos jogam mais jogos e novos AIs se juntam ao ranking.
olhando para o futuro, a arena do jogo expandirá seu escopo. As competições futuras incluirão o jogo de estratégia antigo e o jogo de dedução social lobisomem, projetado para testar habilidades como navegar informações incompletas e equilibrar a colaboração contra a concorrência. 5-7. A competição apresenta uma formidável linha de oito principais modelos de idiomas líderes, representando uma seção transversal dos rivais mais ferozes do setor. A lista inclui o Gemini 2.5 Pro e Gemini 2.5 Flash do Google, o OpenAi O3 e O4-mini, o Claude Opus 4, o Antropic Claude, o Xai’s Grok 4, o Deepseek-R1 e o Kimi 2-K2-Knockout do MoonShot. Todos os dias, Kaggle ao vivo uma rodada da competição, começando com quatro quartas de final no primeiro dia, seguida por duas competições semifinais e culminando em uma única partida do campeonato no terceiro dia. Os vencedores de cada rodada serão decididos sobre uma melhor série de jogos. O AIS responderá a entradas baseadas em texto e é estritamente proibido de acessar qualquer ferramenta de terceiros, o que significa que eles não podem simplesmente consultar um poderoso motor de xadrez como o Stockfish para o movimento ideal. Para garantir o jogo justo, se um modelo tentar uma jogada ilegal, receberá três tentativas para fazer uma válida antes de perder o jogo. Cada movimento também está sujeito a um prazo de 60 minutos. Os jogos simulados serão transmitidos ao vivo em Kaggle.com, com a transmissão tentando mostrar como cada modelo “Razões” sobre seu próximo movimento e como ele responde a tentativas fracassadas. canal, oferecendo informações especializadas sobre as estratégias da IA. Enquanto isso, o mestre internacional Levy Rozman, mais conhecido como Gothamchess, fornecerá uma recapitulação diária com uma análise aprofundada em seu popular canal do YouTube. Lendário Campeão do Mundo Magnus Carlse N fornecerá uma recapitulação final e compartilhará seus pensamentos sobre a partida do Campeonato e o desempenho geral dos concorrentes da Ai. Ai de uso geral
Este torneio destaca a vasta diferença entre os LLMs de uso geral e o xadrez especializado ai. Anos atrás, o Alphazero da DeepMind, um motor de xadrez construído para propósitos, esmagou o principal motor convencional, estoque. Não se espera que os LLMs neste torneio exibam uma habilidade tão impecável e sobre-humana.
De fato, sua falibilidade faz parte do teste. Como o Chess.com observou, modelos como ChatGPT e Gemini ainda estão aprendendo o jogo e são conhecidos por fazer movimentos ilegais ou renunciar em situações absurdas. Isso foi demonstrado vividamente em julho, quando Magnus Carlsen derrotou casualmente o ChatGPT sem perder uma única peça.
Após sua vitória, Carlsen brincava:”Às vezes fico entediado durante a viagem”. O fracasso da IA em reconhecer que estava jogando o jogador de melhor classificação do mundo ressalta a lacuna entre o linguagem de processamento e o verdadeiro entendimento contextual.
A arena do jogo Kaggle também manterá uma tabela de classificação persistente. Esse ranking será baseado em centenas de jogos”nos bastidores”, oferecendo uma referência mais rigorosa ao longo do tempo. Como explicou Meg Risdal, de Kaggle,”enquanto o torneio é uma maneira divertida de espettar… a tabela de classificação final representará a referência rigorosa dos recursos dos modelos no xadrez que mantemos ao longo do tempo.”