Googlen Kaggle julkaisee uuden “peliareenan” testatakseen, kuinka hyvin AI-mallit voivat perustella. Ensimmäinen tapahtuma on shakkikilpailu, joka alkaa verkossa 5. elokuuta. Kahdeksan Top AI-mallia kilpailee, mukaan lukien Googlen Gemini 2.5 Pro, Openai’s O4-Mini ja Antropicin Claude Opus 4. testit . Kaggle työskentelee Chess.com: n kanssa tapahtumassa. Suosituimmat shakkipelaajat, kuten Hikaru Nakamura ja Magnus Carlsen, antavat analyysinsä peleistä.
Tämä aloite edustaa merkittävää muutosta teollisuuden arvioinnissa AI: n arvioinnissa. Sen sijaan, että luottaisi staattisiin vertailuarvoihin, Google luo dynaamisen ympäristön koettelemaan erikoistuneen AI: n kuuluisan hallitseman verkkotunnuksen strategisen älykkyyden. Perustelu
Kaggle-peliareena on Google Deepmindin ja yrityksen tietotekniikan yhteisön Kagglen kumppanuus. Sen tavoitteena on tarjota läpinäkyvä ja vankka alusta suurten kielimallien (LLMS) päättelyominaisuuksien testaamiseksi kilpailukykyisissä, dynaamisissa olosuhteissa.
Tämä muutos käsittelee suoraan kasvavaa huolta, että perinteiset staattiset vertailuarvot eivät ole riittämättömiä AI: n edistymisen todella mittaamiseksi. Vaikka mallit ovat osoittaneet, että kansainvälisen matemaattisen olympialaisen kaltaisten testien, kuten kansainvälisen matemaattisen olympialaisen, päättelyn hyppy, tällaiset arvioinnit eivät kaappaa reaaliaikaista strategista ajattelua.
Google väittää, että monimutkaiset pelit ovat kestäviä siitä, mitä se kutsuu “kylläisyyteen”-testin ongelmaan, joka”ratkaistaan”tavanomaisella kaavalla. Shakkien kaltaisten pelien vaikeudet luonnollisesti asteikot vastustajien parantuessa, tarjoamalla tiukemman ja jatkuvamman haasteen. Arvioinnit koettavat ominaisuudet huomattavasti yksinkertaisen kuvioiden sovittamisen ulkopuolella, mukaan lukien strateginen suunnittelu, muisti, sopeutuminen, petokset ja jopa “mielenteoria”-kyky ennakoida vastustajan ajatuksia. Tulostaulut päivittävät dynaamisesti, kun mallit pelaavat enemmän pelejä ja uudet AIS liittyy sijoitukseen.
Näyttäen eteenpäin, Game Arena laajentaa laajuuttaan. Tuleviin kilpailuihin sisältyy muinainen strategiapelin GO ja sosiaalinen vähennyspelin ihmissusi, jonka tarkoituksena on testata taitoja, kuten navigoimalla puutteellisissa tiedoissa ja tasapainottamalla yhteistyötä kilpailua vastaan.
avajaiset shakki-showdown: mallit, säännöt ja Star Power. Kilpailussa on valtava kokoonpano kahdeksasta johtavasta suuresta kielimallista, jotka edustavat poikkileikkausta alan kovimmista kilpailijoista. Luettelo sisältää Googlen Gemini 2.5 Pro ja Gemini 2.5 Flash, Openai’s O3 ja O4-Mini, antropisen Claude Opus 4, Xai’s Grok 4, Deepseek-R1 ja Moonshotin Kimi 2-K2-Instruct. Joka päivä Kaggle siirtyy yhden kilpailun yhden kierroksen, alkaen neljästä puolivälieristä ottelusta ensimmäisenä päivänä, jota seuraa kaksi välieräkilpailua ja huipentuu yhteen mestaruusotteluun kolmantena päivänä. Kunkin kierroksen voittajat päätetään neljän parhaan pelisarjan aikana.
Säännöt on erityisesti suunniteltu eristämään ja testaamaan mallien luontaisia päättelykykyjä. AIS vastaa tekstipohjaisiin tuloihin ja on ehdottomasti kielletty pääsemästä mihinkään kolmansien osapuolien työkaluihin, mikä tarkoittaa, että ne eivät voi vain kysyä Stockfishin kaltaista tehokasta shakkimoottoria optimaaliseen siirtoon. Reilun pelin varmistamiseksi, jos malli yrittää laitonta siirtoa, sille annetaan kolme tutkielmaa voimassa olevan, ennen kuin sen on menetettävä peli. Jokaiseen liikkeeseen kohdistuu myös 60 minuutin aikaraja.
tämän ainutlaatuisen kilpailun tuomiseksi globaalille yleisölle Kaggle on tehnyt yhteistyötä Chess.com: n ja joidenkin shakkimaailman vaikutusvaltaisimpien hahmojen kanssa. Simuloidut pelit on liveastriphatement kaggle.com-sivustossa, kun lähetysyritys yrittää näyttää, kuinka kukin malli”syyt”seuraavasta liikkeestä ja siitä, miten se vastaa epäonnistuneisiin yrityksiin.
Turnaus päättyy lopulliseen asiantuntijatuomioon. Legendaarinen maailmanmestari Magnus Carlse n antaa lopullisen yhteenvedon ja jakaa ajatuksensa mestaruusottelusta ja AI-kilpailijoiden kokonaisesityksestä. Yleiskäyttöön tarkoitettu AI
Tämä turnaus korostaa laajaa eroa yleiskäyttöisten LLM: ien ja erikoistuneen shakki-AI: n välillä. Vuosia sitten Deepmindin oma alphazero, tarkoitukseen rakennettu shakkimoottori, murskasi kuuluisasti tavanomaisen moottorin, Stockfishin. Tämän turnauksen LLM: ien ei odoteta näyttävän tällaista virheetöntä, ylimääräistä taitoa.
Itse asiassa niiden erehtyvyys on osa testiä. Kuten Chess.com on todennut, ChatgPT: n ja Geminin kaltaiset mallit oppivat edelleen peliä, ja niiden on tiedetty tekevän laittomia liikkeitä tai eroavan absurdissa tilanteissa. Tämä osoitettiin elävästi heinäkuussa, kun Magnus Carlsen voitti satunnaisesti Chatgptin menettämättä yhtä kappaletta. AI: n epäonnistuminen tunnistaa sen pelaamisen maailman parhaiten arvioidun pelaajan korostaminen kielen käsittely-ja todellisen kontekstuaalisen ymmärryksen välillä. Tämä sijoitus perustuu satoihin”kulissien takana”-peleihin, jotka tarjoavat ajan myötä tiukemman vertailuarvon. Kuten Kagglen Meg Risdal selitti: “Vaikka turnaus on hauska tapa katsella… Viimeinen tulostaulu edustaa mallin shakkien ominaisuuksien tiukkaa vertailukohtaa, jota ylläpidämme ajan myötä.”