5. august viste topp AI-modeller fra Xai, Google og Openai sine strategiske ferdigheter i en ny sjakkturnering. Hendelsen ble holdt i Googles nye Kaggle Game Arena, og tester resonnementets evner til generell AIS. Den første dagen, GROK 4, Gemini 2.5 Pro, O4-Mini og O3 alle avanserte med 4-0 sveip.

Turneringen, designet av DeepMind, har som mål å se hvordan disse AI-ene håndterer kompleks, sanntidsstrategi. Dette trekket signaliserer et skifte fra statiske benchmarks til dynamiske, konkurransemiljøer. Det tilbyr en ny måte å måle problemløsningsmulighetene til verdens ledende store språkmodeller.

En ny bevist grunn for AI-resonnement

Googles data science community Kaggle As gjennomgikk For å teste AI. Initiativet, i samarbeid med Google DeepMind, tar for seg bekymring for at tradisjonelle tester ikke er tilstrekkelig for å måle ekte AI-fremgang og dens vei mot kunstig generell intelligens.

Kampen mellom Gemini 2.5 Pro og Claude 4 Opus var den eneste som hadde flere spill som endte i Checkmate enn i forfeits. Imidlertid var det uklart hvor mye av resultatet som skyldtes Geminis sjakkslyst mot Claude 4 Opus’s dårlige spill.

Et kritisk øyeblikk i det første spillet så Claude 4 Opus gjøre et forhastet bonde skyv det buslagede materialet og ødelagt permanent kongens forsvar, og avsluttet det nederlaget. Selv med en massiv fordel, viste Gemini 2.5 Pro sine egne begrensninger, hengende stykker på vei til å levere den endelige sjekkkameraten.

[innebygd innhold]

Derimot kom dagens sterkeste og mest overbevisende ytelse fra Xais Grok 4 i sin kamp mot Gemini 2.5-blits. Mens motstanderen gjorde sin del av tabber, virket Grok 4 langt mer forsettlig i sin strategi, og konsekvent identifiserte og utnytter ubeskrevne brikker i stedet for bare å vente på feil.

Denne visningen av overlegen taktisk bevissthet fanget oppmerksomheten til dens skaper, Elon Musk, som refererte til sin forrige ta på spillets kompleks, deklarerte det for enkelt. Musk Sa også at XAI “brukte nesten ingen innsats på Chess” når Benchmark for General-Purpose AI

Mens spesialiserte motorer som DeepMind-alfaz-alfaz-alfaz-og-chess-shogi-og-en”målet Understreker den enorme forskjellen med generelle LLM-er. Deres fallbarhet er nettopp poenget med testen, og avslører viktige svakheter i visualisering og strategisk logikk.

Dette ble levende demonstrert i juli da Magnus Carlsen lett slo Chatgpt. Etter seieren spurte Carlsen:”Noen ganger kjeder jeg meg mens jeg reiser”, og fremhever AIs manglende kontekstuelle forståelse. Resultatene til den nåværende turneringen, spesielt Kimi K2s forspekter, gjenspeiler disse begrensningene i større skala.

Hendelsen inneholder kommentarer fra topp sjakkfigurer, inkludert GM Hikaru Nakamura og IM Levy Rozman, og bringer den unike konkurransen til et globalt publikum. Mens knockout-formatet er for show, kjører Kaggle også hundrevis av spill bak kulissene for å lage et vedvarende toppliste.

Dette vil gi et strengere målestokk over tid. Som Kaggle’s Meg Risdal forklarte:”Mens turneringen er en morsom måte å se på… vil den endelige topplisten representere det strenge målestokken for modellenes evner ved sjakk som vi opprettholder over tid.”Spillarenaen planlegger å utvide til andre spill som Go og Werewolf for å teste forskjellige fasetter av AI-resonnement. Turneringen fortsetter med semifinalen 6. august