Kaggle Google wprowadza na rynek nową „Arenę Game”, aby sprawdzić, jak dobrze mogą rozumować modele AI. Pierwszym wydarzeniem jest konkurs szachowy, który rozpoczyna się online 5 sierpnia. Osiem najlepszych modeli AI będzie konkurowało, w tym Google’s Gemini 2.5 Pro, O4-Mini Openai i Claude Opus 4.

Celem jest zobaczenie, w jaki sposób te uchwyt AIS Strategiczne myśli w grze na żywo,

a new Arena do testów do testów Rozumowanie

Kaggle Game Arena to partnerstwo między Google DeepMind a społecznością danych firmy, Kaggle. Ma na celu zapewnienie przejrzystej i solidnej platformy do testowania możliwości rozumowania dużych modeli językowych (LLM) w konkurencyjnych, dynamicznych ustawieniach.

Ten ruch dotyczy bezpośrednio rosnącego problemu, że tradycyjne, statyczne punkty odniesienia są niewystarczające dla prawdziwie pomiaru postępu AI. Podczas gdy modele wykazały skok w rozumowaniu kontrolowanych testów, takich jak międzynarodowa olimpiada matematyczna, takie oceny nie rejestrują strategicznej myśli w czasie rzeczywistym.

Google twierdzi, że złożone gry są odporne na to, co nazywa „nasyceniem”-problem „rozwiązania” przez formułę standardową. Trudność w grach takich jak szachy w naturalny sposób poprawiają się przeciwników, oferując bardziej rygorystyczne i ciągłe wyzwanie.

[zawartość osadzona]

Te gry służą jako proxy krytycznych umiejętności w świecie rzeczywistym. Oceny będą zbadać możliwości znacznie wykraczające poza proste dopasowywanie wzorców, w tym planowanie strategiczne, pamięć, adaptację, oszustwa, a nawet „teorię umysłu”-możliwość przewidywania myśli przeciwnika.

Platforma jest zbudowana dla przejrzystości, przy czym każde środowisko gry zawierają dedykowane strony, które wymieniają tablice przywódców, wyniki pojedynku i zasady open source. Bliby wyników będą aktualizować dynamicznie, ponieważ modele odgrywają więcej gier, a nowe AI dołączą do rankingów.

Patrząc w przyszłość, arena gry rozszerzy swój zakres. Przyszłe konkursy będą obejmować starożytną grę strategiczną Go i grę oddukania społecznego W wilkołaka, która ma na celu testowanie umiejętności, takich jak poruszanie się niekompletnymi informacjami i równoważenie współpracy z konkurencją.

inauguracyjna showdown szachowa: modele, zasady i gwiazda mocy

wydarzenie inauguracyjne dla nowej platformy to AI Turnament, a trzy-5-7. W konkursie zawiera ogromną ofertę ośmiu wiodących modeli dużych języków, co stanowi przekrój najostrzejszych rywali w branży. Lista obejmuje Google’s Gemini 2.5 Pro i Gemini 2.5 Flash, O3 O3 i O4-Mini, Anthropic, Claude Opus 4, XAI Grok 4, Deepseek-R1 i Kimi 2-K2-instruct Każdego dnia Kaggle będzie transmitować na żywo jedną rundę zawodów, zaczynając od czterech ćwierćfinałowych pojedynków pierwszego dnia, a następnie dwóch półfinałowych konkursów, a kulminacyjnie w pojedynczym meczu o mistrzostwo trzeciego dnia. Zwycięzcy każdej rundy zostaną rozstrzygnięte w ramach najlepszej z czterech serii gier.

Zasady są specjalnie zaprojektowane do izolacji i testowania wewnętrznych umiejętności rozumowania modeli. AIS zareaguje na dane wejściowe tekstowe i ściśle nie wolno im uzyskać dostępu do jakichkolwiek narzędzi stron trzecich, co oznacza, że nie mogą po prostu zapytać o potężny silnik szachowy, taki jak Stockfish w celu uzyskania optymalnego ruchu. Aby zapewnić fair play, jeśli model próbuje nielegalnego ruchu, otrzyma trzy ponowne ponowne wykonanie ważnego, zanim będzie musiał stracić grę. Każdy ruch podlega również 60-minutowego limitu czasu.

Aby wprowadzić ten wyjątkowy konkurs globalnej publiczności, Kaggle nawiązał współpracę z Chess.com i jednymi z najbardziej wpływowych postaci w świecie szachowym. Symulowane gry będą transmitowane na żywo na Kaggle.com, a transmisja próbuje pokazać, w jaki sposób każdy model „powody” na temat jego następnego ruchu i jak reaguje na nieudane próby.

Grandmaster i najlepszy streamer

Turniej zakończy się ostatecznym wyrokiem eksperckim. Legendarny mistrz świata Magnus Carlse n zapewni końcowe podsumowanie i podzieli się jego przemyśleniami na temat meczu mistrzostw i ogólnej wydajności AI AI, w ramach konkurencji AI, w strumieniu na kanale Take Take YouTube. AI ogólne AI

Ten turniej podkreśla ogromną różnicę między LLMS-Purpose LLM a specjalistyczną AI szachów. Wiele lat temu własny Alphazero DeepMind, specjalnie zbudowany silnik szachowy, słynął z najwyższego konwencjonalnego silnika, Stockfish. Nie oczekuje się, że LLM w tym turnieju będą wykazywać tak bezbłędne, nadludzkie umiejętności.

W rzeczywistości ich omylność jest częścią testu. Jak zauważył Chess.com, modele takie jak Chatgpt i Gemini wciąż uczą się gry i wiadomo, że wykonują nielegalne ruchy lub rezygnują w absurdalnych sytuacjach. Zostało to żywe w lipcu, kiedy Magnus Carlsen od niechcenia pokonał Chatgpt bez utraty jednego kawałka.

Po zwycięstwie Carlsen żartował: „Czasami się nudzę podczas podróży”. Brak rozpoznania przez AI grał najwyżej ocenianego gracza na świecie, podkreśla lukę między językiem przetwarzania a prawdziwym zrozumieniem kontekstowym.

Kaggle Game Arena również utrzyma trwałą tablicę liderów. Ten ranking będzie oparty na setkach gier „za kulisami”, oferując z czasem bardziej rygorystyczny punkt odniesienia. Jak wyjaśnił Meg Risdal Kaggle: „Podczas gdy turniej jest zabawnym sposobem na obserwowanie… Ostateczna tablica liderów będzie reprezentować rygorystyczny punkt odniesienia możliwości modeli w szachach, które utrzymujemy z czasem.”

Categories: IT Info