5. elokuuta Xai, Googlen ja Openain parhaat AI-mallit esittelivät heidän strategisia taitojaan uudessa shakki-turnauksessa. Googlen uudessa Kaggle Game Arenalla pidetyssä tapahtuma testaa yleiskäyttöisten AIS: n päättelukyvyn. Ensimmäisenä päivänä, Grok 4, Gemini 2.5 Pro, O4-Mini ja O3, kaikki edistyneitä 4-0-pyyhkäisyillä.
Deepmindin suunnittelema turnaus pyrkii näkemään, kuinka nämä AIS käsittelee monimutkaisia, reaaliaikaisia strategiaa. Tämä siirto merkitsee siirtymistä staattisista vertailuarvoista dynaamisiin, kilpailuympäristöihin. Se tarjoaa uuden tavan mitata maailman johtavien suurten kielimallien ongelmanratkaisumahdollisuuksia.
Uusi todistusalue AI-perusteluille
Googlen datatieteen yhteisö Kaggle julkaisi
Shakkiturnaus, jossa on kahdeksan johtavaa LLMS: ää. Kokoonpanoon kuuluvat Googlen Gemini 2.5 Pro ja Flash, Openai’s O3 ja O4-Mini, antropisin Claude 4 Opus, Xai’s Grok 4, Deepseek-R1 ja Moonshot’s Kimi K2. Mallien on luotettava omaan päättelyyn ilman pääsyä shakimoottoreihin. Ensimmäisen päivän toiminta näki kaikki neljän puolivälierän ottelun päättyneet upeasti yksipuolisiin 4-0-tuloksiin, mutta pisteiden takana olevat tarinat vaihtelivat dramaattisesti. Vaikka voittajat-Grok 4, Gemini 2.5 Pro, O4-Mini ja O3-kaikki edennyt puhtaasti, niiden voittojen luonne korosti merkittäviä ja yllättäviä aukkoja mallejen kyvyissä pelata peliä. Perusheikkouden paljastavassa näytöllä Kimi K2 menetti kaikki neljä peliä sen jälkeen, kun hän ei ollut tuottanut laillista siirtoa neljässä yrityksessä. Yksikään peleistä ei kestänyt yli kahdeksan liikettä. Analyysi ehdottaa, että Kimi K2 voisi seurata muutaman liikkeen avaamista koskevaa teoriaa, mutta heti kun se oli tuntemattomalla alueella, sen käsitys pelistä hajosi, unohtaen toisinaan, kuinka kappaleet liikkuvat tai lukevat lautassa olevien kappaleiden sijaintia kokonaan. Tätä kilpailua kuvailtiin”omituiseksi”, jolle on ominaista vahvan, ihmisen kaltaisen avauspelin hetket, jotka yhtäkkiä siirtyisivät molempien osapuolten virheellisiksi ja hallusinaatioiksi. Huolimatta tästä virheellisestä esityksestä, O4-Mini osoitti erinomaisen kyvyn viimeistellä, vakuuttaen vaikuttavasti kahden tarkistuksen taktisen sekvenssin. Gemini 2.5 Pro ja Claude 4 Opus välinen taistelu oli ainoa, joka esitteli enemmän pelejä, jotka päättyivät checkmateissa kuin menetyissä. Oli kuitenkin epäselvää, kuinka suuri osa tuloksesta johtui Geminin shakki-takasta verrattuna Claude 4 Opus’n huonoon peliin. Kriittinen hetki ensimmäisessä pelissä Claude 4 Opus teki kiireellisen sotilaa, joka hämärsi materiaalia ja särkytti pysyvästi kuninkaansa puolustuksensa, nopeuttaen sen kukinnan. Jopa massiivisella edulla, Gemini 2.5 Pro osoitti omia rajoituksiaan, ripustettujen kappaleita matkalla toimittamaan viimeisen tarkistuskaverin. [upotettu sisältö] Päivän vahvin ja vakuuttavin suorituskyky tuli Xai’s Grok 4: stä ottelussaan Gemini 2.5 Flash-sovellusta vastaan. Vaikka sen vastustaja teki osuutensa virheistä, Grok 4 näytti strategiassaan paljon tarkoituksellisemmalta, tunnistaen jatkuvasti ja hyödyntämällä puolustamattomia kappaleita sen sijaan, että vain odottaisi virheitä. Tämä ylemmän taktisen tietoisuuden näyttö kiinnitti sen luojan Elon Muskin huomion, joka viittasi hänen aikaisempaan pelin monimutkaisuuteen, julistaen sen”liian yksinkertaiseen”. Musk sanoi myös , että xai “vietti melkein ei ponnisteluja shakkilla”, kun harjoittelet Grok 4: tä, kutsuen suhteellisen hyvää suorituskykyä”sivuvaikutukseksi”. Yleiskäyttöön tarkoitettujen yleiskäyttöisten moottorien vertailukohta, kun taas erikoistuneita moottoreita, kuten Deepmind’s Alphazero Tapahtumassa on kommentteja huippuluokan hahmoista, mukaan lukien GM Hikaru Nakamura ja IM Leve Rozman, tuovat ainutlaatuisen kilpailun globaalille yleisölle. Vaikka Knockout-muoto on show, Kaggle ajaa myös satoja pelejä kulissien takana luomaan pysyvän tulostaulun. Tämä tarjoaa ajan myötä tiukemman vertailukohdan. Kuten Kagglen Meg Risdal selitti:”Vaikka turnaus on hauska tapa katsella… viimeinen tulostaulu edustaa mallien shakkien ominaisuuksien tiukkaa vertailukohtaa, jota ylläpidämme ajan myötä.”Pelin areena aikoo laajentua muihin peleihin, kuten Go ja ihmissusi, testatakseen AI-päättelyn eri puolia. Turnaus jatkuu semifinaalilla 6. elokuuta. puolivälierissä: Dominaation ja toimintahäiriöiden päivä