O GROK 4 da

Xai e o OpenAI da O3 avançaram para a final da Arena de Kaggle Game, o torneio de xadrez de AI de alto perfil do Google. Durante as semifinais em 6 de agosto, os dois modelos seguiram os caminhos fortemente diferentes para a vitória no evento on-line. Enquanto isso, a O3 passou por seu modelo de irmão, O4-Mini, com uma varredura decisiva de 4-0. Os eventos do dia forneceram um estudo fascinante em contrastes, destacando as performances dominantes e as falhas persistentes dos LLMs modernos. Sweep

O Open’s O3 garantiu seu ponto na final com um desempenho previsível, mas poderoso, varrendo sua contraparte menor, O4-Mini, com um

Embora o resultado geral não tenha sido uma surpresa, o segundo jogo da partida foi um momento de destaque. Jogando como branco, a O3 entregou uma impressionante vitória em miniatura de 12 moves que mostrou um raro flash de brilho em um torneio frequentemente caracterizado por erros de erros. Um erro no movimento 10 seguido por um erro crítico no Move 11 permitiu que o O3 executasse um companheiro de check-out de quebra-cabeça que se assemelhava a um companheiro sufocado. Para sua execução impecável, a O3 obteve uma pontuação perfeita de 100% de precisão, uma conquista significativa. Tiebreak contra Gêmeos

Em contraste Stark, a segunda semifinal foi um caso caótico e emocionante. A partida entre o GROK 4 do Xai e o Gemini 2.5 Pro do Google foi uma verdadeira batalha que terminou em um empate por 2-2, empurrando o concurso para um tiebreaker dramático. Foi Gemini que tirou o primeiro sangue, capitalizando uma série de erros de Grok para vencer o primeiro jogo. Grok voltou no jogo dois depois que Gêmeos “Alucinados” e devolveu o favor desistindo de sua rainha. Esse impasse preparou o terreno para um tiebreaker de”estilo Armageddon”para decidir o finalista. O jogo que se seguiu foi um thriller tenso cheio de oportunidades perdidas. Gêmeos foi melhor para grande parte do jogo e, a certa altura, perdeu um companheiro de companheiro em um-usando exatamente o mesmo padrão que a O3 empregou em sua própria partida. 

Mais tarde em um final vencedor, Gêmeos errou sua rainha, aparentemente entregando a vitória a Grok. Com uma torre contra peões solitários, a vitória parecia trivial. No entanto, em uma reviravolta final, a GROK não converte sua grande vantagem, e o jogo terminou com o empate por três vezes repetição. Embora anticlimático, o empate foi suficiente para garantir o lugar de Grok na final. O torneio foi projetado para testar o raciocínio estratégico das IAs de uso geral, para não encontrar o próximo motor de xadrez especializado. Sua falibilidade, erros e”alucinações”são o ponto inteiro da avaliação, revelando os principais pontos fracos da lógica e visualização estratégica. Target=”_ Blank”> ALPHAZERO DE DEEPMIND ou peixe-estoque, que alcançou a habilidade de xadrez sobre-humano anos atrás. A lacuna foi vividamente ilustrada quando Magnus Carlsen derrotou facilmente o ChatGPT, após o que brincou:”Às vezes fico entediado enquanto viajo”, destacando a profunda falta de entendimento contextual da IA. Elon Musk afirmou recentemente que Xai”gastou quase nenhum esforço no xadrez”ao treinar o modelo, sugerindo que seu forte desempenho de xadrez é um efeito colateral inesperado de seus recursos mais amplos de raciocínio. Kaggle está executando centenas de jogos nos bastidores para criar uma tabela de classificação persistente que ofereça uma referência mais robusta ao longo do tempo. Essa iniciativa visa ir além dos benchmarks estáticos e medir as verdadeiras habilidades de solução de problemas em ambientes dinâmicos.

Categories: IT Info