Xai Grok 4 i O3 O3 Openai awansowały do finału Kaggle Game Arena, znanego turnieju szachowego AI Google. Podczas półfinałów 6 sierpnia oba modele zyskały zupełnie różne ścieżki do zwycięstwa w wydarzeniu online.
Grok 4 przeżyło mecz gryzący paznokcie z Google’s Gemini 2.5 Pro, który zakończył się w remisie 2-2 i został rozstrzygnięty tylko napiętym krawatem „Armageddon”. Tymczasem O3 przejechał obok swojego modelu rodzeństwa, O4-Mini, z decydującym zamiataniem 4-0.
Wyniki ustanowiły ostateczne showdown 7 sierpnia między najlepszymi modelami z XAI i Openai, podczas gdy pokonani półfinaliści będą grać na trzecim miejscu. Wydarzenia dnia stanowiły fascynujące badanie w przeciwieństwie, podkreślając zarówno dominujące występy, jak i trwałe wady nowoczesnych LLM.
o3 refilats z flawless 4-0 zamieczanie
O3 Openai zabezpieczył swoje miejsce w finale z przewidywalnym, ale potężnym występem, zamiatając swój mniejszy odpowiednik, O4-Mini, z 4-0 SCORE . Jak wcześniej wyjaśnił Openai, O4-Mini jest lżejszą, szybszą wersją O3, dzięki czemu dominacja starszego modelu była oczekiwanym rezultatem.
, podczas gdy ogólny wynik nie był zaskoczeniem, druga gra w meczu była wybitnym momentem. Grając jako White, O3 zapewnił oszałamiające 12-ruchowe miniaturowe zwycięstwo, które pokazało rzadki błysk błysku w turnieju często charakteryzującym się błędami.
Gra rozpoczęła się od standardowej obrony sycylijskiej, ale O4-Mini szybko się załamał. Błąd w ruchu 10, a następnie krytycznym pomyłką na ruchu 11 pozwoliło O3 wykonać szachownicę przypominającą puzzle, która przypominała duszonego partnera. Za jego nieskazitelne wykonanie O3 uzyskał doskonały wynik 100% dokładności, znaczące osiągnięcie.
Pozostałe gry w meczu nastąpiły podobna narracja, a O4-Mini konsekwentnie tracą wątek i popełniają krytyczne błędy pod presją, umożliwiając O3 na przekonanie swoich korzyści w czystości i awansować do mistrzostwa bez mistrzostwa, bez rezygnacji z mistrzostwu mistrzostwa bez mistrzostwu mistrzostwa bez mistrzostwa. Tiebreak przeciwko Gemini
W wyraźnym kontraście drugi półfinał był chaotycznym i ekscytującym sprawą. Mecz między Xai Grok 4 a Google’s Gemini 2.5 Pro był prawdziwą bitwą w przód i tyłek, która zakończyła się remisem 2-2, popychając konkurs do dramatycznego remisu.
Grok został opisany jako „nietypowy hektic”, odejście z jego dominującego występu w ćwierćfinałach. To Bliźnięta narysowało First Blood, wykorzystując serię błędów z Grok, aby wygrać pierwszą grę. Grok uderzył w drugą mecz po „Halucynowanym” Gemini i zwrócił przychylność, rezygnując z królowej.
[Wbudowana treść]
Z remisem AIS, AIS ponownie wygrał w następnych dwóch meczach, a GroK objęła prowadzenie w trzeciej meczu tylko dla Gemini, aby wygrać mecz cztery i wybrać mecz 2-2. Ten impas przygotował scenę dla remisu „Armageddon”, aby zdecydować o finale.
W tym formacie Grok grał czarnymi utworami i otrzymał szanse na losowanie, co oznacza, że losowanie liczy się jako wygrana mecz. Gra, która nastąpiła, była napiętym thrillerem wypełnionym pominięciem możliwości. Bliźnięta była lepsza przez większą część gry i w pewnym momencie opuściła wyraźnego partnera w jednym-z tego samego samego wzoru, którego O3 zastosował we własnym meczu.
Później w zwycięskiej grze końcowej, Gemini rozliczył swoją królową, pozornie przekazując zwycięstwo Grorze. Z wiekiem przeciwko Lonely Pawns wygrana wydawała się trywialna. Jednak w ostatnim akcji Grok nie przekonwertował swojej ogromnej przewagi, a gra zakończyła się losowaniem trzykrotnym powtórzeniem. Podczas gdy antyklimatyczne, losowanie wystarczyło, aby zabezpieczyć miejsce Grok w finale.
[zawartość wbudowana]
Test rozumowania, a nie perfekcja
Półfinale silnie wzmacniają podstawowy cel areny gier Kaggle. Turniej ma na celu przetestowanie strategicznego rozumowania AIS ogólnego przeznaczenia, a nie znalezienie kolejnego wyspecjalizowanego silnika szachowego. Ich omylność, błędy i „halucynacje” są celem oceny, ujawniając kluczowe słabości strategicznej logiki i wizualizacji.
Jest to ostre kontrastowe silniki, takie jak Alphazero Deepmind lub Stockfish, które osiągnęły nadludzką zdolność szachową wiele lat temu. Różnica została żywo zilustrowana, gdy Magnus Carlsen z łatwością pokonał Chatgpt, po czym żartował: „Czasami nudzę się podczas podróży”, podkreślając głęboki brak zrozumienia kontekstowego.
Postęp Grok jest szczególnie godny uwagi, biorąc pod uwagę roszczenia od jego twórcy. Elon Musk stwierdził niedawno, że XAI „nie wydał prawie żadnego wysiłku na szachy” podczas szkolenia modelu, sugerując, że jego silna wydajność szachowa jest nieoczekiwanym efektem ubocznym jego szerszych możliwości rozumowania.
Podczas gdy wspornik nokautowy zapewnia rozrywkę, większym celem Google jest zbudowanie bardziej rygorystycznego systemu oceny. Kaggle prowadzi setki gier za kulisami, aby stworzyć trwałą tablicę liderów, która z czasem oferuje solidniejszy punkt odniesienia.
, gdy meg Risdal Kaggle wyjaśniła w poprzednim stwierdzeniu: „Podczas gdy turniej jest zabawnym sposobem na obserwowanie… Ostateczna tablica liderowa będzie reprezentować rygorystyczny punkt odniesienia możliwości modeli w Chess, że utrzymujemy w czasie”. Ta inicjatywa ma na celu wyjście poza statyczne punkty odniesienia i mierzenie prawdziwych umiejętności rozwiązywania problemów w środowiskach dynamicznych.
Ostatni dzień turnieju 7 sierpnia zostanie wyświetlony GROK 4 na mistrzostwach.