; Semifinaalien aikana 6. elokuuta kaksi mallia kulkivat selvästi erilaisia polkuja voittoon online-tapahtumassa.
Grok 4 selvisi kynsien purevasta ottelusta Googlen Gemini 2.5 Prota vastaan, joka päättyi 2-2-solmuun ja päätti vain kireä “Armagedonin”tiebreaker. Samaan aikaan O3 risteili sisarusmallinsa, O4-Minin ohi, ratkaisevalla 4-0-pyyhkäisyllä.
Tulokset perustivat lopullisen näyttelyn 7. elokuuta XAI: n ja Openain parhaiden mallien välillä, kun taas voitettuja semifinalistit pelaavat kolmanneksi. Päivän tapahtumat tarjosivat kiehtovan tutkimuksen vastakohtana, korostaen sekä hallitsevia esityksiä että nykyaikaisten LLM: ien jatkuvia virheitä.
o3 Cruises to final flawless.
Openain O3 kiinnitti paikansa finaalissa ennustettavissa olevalla, mutta voimakkaalla suorituskyvyllä, pyyhkäisemällä pienemmän vastineensa, O4-minin, 4-0-piste . Kuten Openai on aiemmin selittänyt, O4-Mini on kevyempi, nopeampi versio O3: sta, mikä tekee vanhemman mallin hallitsevuudesta odotetun lopputuloksen.
Vaikka kokonaistulos ei ollut yllätys, ottelun toinen peli oli standout-hetki. Valkoisena pelatessaan O3 toimitti upean 12-nauhan miniatyyrivoiton, joka esitteli harvinaisen loistavuuden turnauksessa, jolle on usein ominaista blunders.
Peli alkoi Sisilian-tavanomaisella puolustuksella, mutta O4-Mini epäonnistui nopeasti. Virhe Move 10: llä, jota seuraa kriittinen virhe siirtämällä 11, salli O3: n suorittaa palapelin kaltainen tarkistusmatka, joka muistutti tukahdutettua kaveria. Virheellisen toteutuksensa vuoksi O3 ansaitsi täydellisen 100%: n tarkkuuspistemäärän, merkittävän saavutuksen.
Ottelun jäljellä olevat pelit seurasivat samanlaista kerrontaa, kun O4-minit menettivät johdonmukaisesti säiettä ja tekivät kriittisiä virheitä paineen alla, jolloin O3 voi muuttaa etujaan puhtaasti ja edellyttää mestaruuskilpailua. Gemini
vastakkaisessa vastakohtana toinen semifinaali oli kaoottinen ja jännittävä tapaus. Xai’s Grok 4: n ja Googlen Gemini 2.5 Pron välinen ottelu oli todellinen edestakaisin taistelu, joka päättyi 2-2-tasapeliin, työntäen kilpailun dramaattiseen tiebreakeriin. Gemini, joka veti First Blood, hyödyntäen Grokin virheitä ensimmäisen pelin voittamiseksi. Grok iski takaisin peliin kaksi sen jälkeen, kun Gemini “hallusinoitu” ja palautti suosion luopumalla kuningattarestaan. Tämä umpikuja asetti vaiheen “Armageddon-tyyliselle”tiebreakerille päättää finalistista.
Tässä muodossa Grok soitti mustilla kappaleilla ja sai Draw-kertoimet, mikä tarkoittaa, että arvonta lasketaan otteluvoittoksi. Seuraava peli oli kireä trilleri, joka oli täynnä menetettyjä mahdollisuuksia. Kaksoset olivat parempia suurelle osalle peliä ja yhdessä vaiheessa jäi selkeän mate-in-one: n-käyttämällä täsmälleen samaa mallia, jota O3 oli käyttänyt omassa ottelussaan.
Myöhemmin voittavassa päätypelissä Gemini räjäytti kuningattarensa näyttäen antaen Grokille voiton. Voittoon, voitto näytti triviaalilta. Viimeisessä käänteessä Grok ei kuitenkaan pystynyt muuttamaan massiivista etua, ja peli päättyi kolminkertaisen toiston tasapeliin. Vaikka antiklimaattinen, veto oli riittävä varmistamaan Grokin paikalla finaalissa. Turnauksen tarkoituksena on testata yleiskäyttöisten AIS: n strateginen päättely, jotta se ei löydä seuraavaa erikoistunutta shakkimoottoria. Niiden vääryyttä, virheet ja “hallusinaatiot”ovat koko arvioinnin kohta, mikä paljastaa keskeiset heikkoudet strategisessa logiikassa ja visualisoinnissa. Target=”_ tyhjä”> DeepMindin alphazero tai varastokala, joka saavutti ylimääräisen shakkikyvyn vuosia sitten. Aukko havainnollistettiin elävästi, kun Magnus Carlsen voitti helposti ChatgPT: n, minkä jälkeen hän piippasi:”Kyllyn joskus matkustaessani”, korostamalla AI: n syvällistä asiayhteyteen liittyvää ymmärrystä. Elon Musk totesi äskettäin, että Xai”vietti melkein mitään shakki”-mallia kouluttaessaan, mikä viittaa siihen, että sen vahva shakki on sen laajempien päättelyominaisuuksien odottamaton sivuvaikutus.
, kun taas poistokotelo tarjoaa viihdettä, Googlen suurempi tavoite on rakentaa tiukempi arviointijärjestelmä. Kaggle ajaa satoja pelejä kulissien takana luodakseen pysyvän tulostaulun, joka tarjoaa voimakkaamman vertailuarvoa ajan myötä.
Kun Kagglen Meg Risdal selitti edellisessä lausunnossa,”Vaikka turnaus on hauska tapa katsella… lopullinen tulostaulu edustaa mallejen kovaa vertailuarvoa. Tämän aloitteen tavoitteena on siirtyä staattisten vertailuarvojen ulkopuolelle ja mitata todellisia ongelmanratkaisutaitoja dynaamisissa ympäristöissä.