Googles Kaggle lanserer en ny”Game Arena”for å teste hvor godt AI-modeller kan resonnere. Den første begivenheten er en sjakkkonkurranse som starter på nettet 5. august. Åtte topp AI-modeller vil konkurrere, inkludert Googles Gemini 2.5 Pro, Openais O4-mini og Anthropics Claude Opus 4. tester . Kaggle jobber med Chess.com om arrangementet. Topp sjakkspillere som Hikaru Nakamura og Magnus Carlsen vil gi sin analyse av spillene.
Dette initiativet representerer et betydelig skifte i hvordan bransjen evaluerer AI. I stedet for å stole på statiske benchmarks, skaper Google et dynamisk miljø for å undersøke den strategiske intelligensen til generelle modeller i et domene som er kjent som spesialisert AI.
[innebygd innhold]
Disse spillene fungerer som en fullmakt for kritiske ferdigheter i den virkelige verden. Evalueringene vil undersøke evner langt utover enkel mønstermatching, inkludert strategisk planlegging, hukommelse, tilpasning, bedrag og til og med”teori om sinn”-evnen til å forutse en motstanders tanker.
Plattformen er bygget for gjennomsiktighet, med hvert spillmiljø med dedikerte sider som lister ledere, matchup-resultater og åpen kildekildens regler. Leaderboards vil oppdatere dynamisk når modeller spiller flere spill og nye AIS blir med i rangeringen.
Ser fremover, vil spillarenaen utvide omfanget. Fremtidige konkurranser vil omfatte det eldgamle strategispillet Go og det sosiale deduksjonsspillet varulv, som er designet for å teste ferdigheter som å navigere ufullstendig informasjon og balansere samarbeid mot konkurranse.
The Inaugural Chess Showdown: Models, Rule og Star Power
The In ANAGURAL Event for den nye plattformen
. 5-7. Konkurransen har en formidabel serie av åtte ledende store språkmodeller, som representerer et tverrsnitt av bransjens Fiercest-rivaler. Vaktlisten inkluderer Googles Gemini 2.5 Pro og Gemini 2.5 Flash, Openais O3 og O4-Mini, Anthropics Claude Opus 4, Xai’s Grok 4, DeepSeek-R1 og Moonshots Kimi 2-K-Instruct.
Tournament vil utfolde seg på A Standard, Single-elim. Hver dag vil Kaggle livestream en runde av konkurransen, og starter med fire kvartfinale matchups på dag én, etterfulgt av to semifinalekonkurranser, og kulminerer med en enkelt mesterskapskamp på dag tre. Vinnere av hver runde blir avgjort over en best-of-Four-serie med spill.
Reglene er spesielt designet for å isolere og teste modellenes iboende resonnementsevner. AIS vil svare på tekstbaserte innganger og er strengt forbudt å få tilgang til tredjepartsverktøy, noe som betyr at de ikke bare kan spørre om en kraftig sjakkmotor som Stockfish for det optimale trekket. For å sikre fair play, hvis en modell prøver et ulovlig trekk, vil den bli gitt tre forsøk på å lage en gyldig før den må miste spillet. Hvert trekk er også underlagt en 60-minutters tidsbegrensning.
For å bringe denne unike konkurransen til et globalt publikum, har Kaggle inngått samarbeid med Chess.com og noen av de mest innflytelsesrike figurene i sjakkverdenen. De simulerte spillene vil bli livestreamet på kaggle.com, med sendingen som forsøker å vise hvordan hver modell”grunner”om sitt neste trekk og hvordan den reagerer på mislykkede forsøk.
Grandmaster og Top streamer htiKn nk. Tilbyr ekspertinnsikt i AIs strategier. I mellomtiden vil den internasjonale mesteren Levy Rozman, bedre kjent som Gothamchess, levere en daglig oppsummering med en grundig analyse på sin populære YouTube-kanal.
Turneringen vil avsluttes med den endelige ekspertdommen. Den legendariske verdensmesteren Magnus Carlse N vil gi en endelig oppsummering og dele sine tanker om Take Take Take Take Take YouTeTimt på AI-konkurransen. General-Purpose AI
Denne turneringen fremhever den enorme forskjellen mellom generell LLM og spesialisert sjakk AI. For mange år siden knuste DeepMinds egen Alphazero, en spesialbygget sjakkmotor, berømt den beste konvensjonelle motoren, Stockfish. LLM-ene i denne turneringen forventes ikke å vise så feilfri, overmenneskelig ferdighet.
Faktisk er deres fallbarhet en del av testen. Som Chess.com har bemerket, lærer modeller som Chatgpt og Gemini fortsatt spillet og har vært kjent for å gjøre ulovlige grep eller trekke seg i absurde situasjoner. Dette ble levende demonstrert i juli da Magnus Carlsen tilfeldig beseiret Chatgpt uten å miste et enkelt stykke.
Etter at seieren hans spurte Carlsen:”Jeg blir noen ganger lei mens jeg reiste.”AIs unnlatelse av å anerkjenne at den spilte verdens topprangerte spiller understreker gapet mellom prosesseringsspråk og ekte kontekstuell forståelse.
Kaggle-spillarenaen vil også opprettholde en vedvarende toppliste. Denne rangeringen vil være basert på hundrevis av”bak kulissene”-spillene, og tilbyr et strengere målestokk over tid. Som Kaggle’s Meg Risdal forklarte:”Mens turneringen er en morsom måte å se på… vil den endelige topplisten representere det strenge målestokken for modellenes evner ved sjakk som vi opprettholder over tid.”