Die Kaggle von
Google startet eine neue”Game Arena”, um zu testen, wie gut KI-Modelle argumentieren können. Die erste Veranstaltung ist ein Schachwettbewerb, der am 5. August online beginnt. Acht Top-KI-Modelle werden antreten, darunter Googles Gemini 2.5 Pro, OpenAs O4-Mini und Anthropics Claude Opus 4. Tests . Kaggle arbeitet mit Chess.com an der Veranstaltung. Top-Chess-Spieler wie Hikaru Nakamura und Magnus Carlsen werden ihre Analyse der Spiele angeben. Anstatt sich auf statische Benchmarks zu verlassen, schafft Google eine dynamische Umgebung, um die strategische Intelligenz allgemeiner Purpose in einer Domäne zu untersuchen, die durch spezialisierte AI berühmt gemeistert wird. Argumentation
Die Kaggle Game Arena ist eine Partnerschaft zwischen Google DeepMind und der Data Science Community des Unternehmens, Kaggle. Ziel ist es, eine transparente und robuste Plattform für das Testen der Argumentationsfunktionen von Großsprachenmodellen (LLMs) in wettbewerbsfähigen, dynamischen Umgebungen zu ermöglichen. Während Modelle einen Sprung in der Begründung auf kontrollierte Tests wie die internationale mathematische Olympiade gezeigt haben, erfassen solche Bewertungen nicht in Echtzeit strategisch. Die Schwierigkeit bei Spielen wie Schach natürliche Skalen als Gegner verbessert sich und bietet eine strengere und kontinuierlichere Herausforderung. Die Bewertungen werden die Funktionen, die weit über die einfache Musterübereinstimmung hinausgehen, einschließlich strategischer Planung, Gedächtnis, Anpassung, Täuschung und sogar „Theorie des Geistes“-die Fähigkeit, die Gedanken eines Gegners vorwegzunehmen. Die Bestenlisten werden dynamisch aktualisiert, wenn Modelle mehr Spiele spielen und neue AIs den Ranglisten beitreten. Zukünftige Wettbewerbe werden das alte Strategie-Spiel und das Social-Ab-Game-Werwolf umfassen, das Fähigkeiten wie unvollständiges Informationen und die Ausgleich der Zusammenarbeit gegen den Wettbewerb testen soll. Der Wettbewerb verfügt über eine beeindruckende Aufstellung von acht führenden Großsprachmodellen, die einen Querschnitt der hartnäckigen Konkurrenten der Branche darstellen. Der Dienstplan umfasst Googles Gemini 2.5 Pro und Gemini 2.5 Flash, Openais O3 und O4-Mini, Anthropics Claude Opus 4, Xais GROK 4, Deepseek-R1 und Moonshots Kimi 2-k2-In-Struktur. Jeden Tag wird Kaggle eine Runde des Wettbewerbs anstrengen, beginnend mit vier Viertelfinalspielen am ersten Tag, gefolgt von zwei Halbfinalwettbewerben und in einem einzigen Meisterschaftsspiel am dritten Tag. Die Gewinner jeder Runde werden über eine Best-of-Vier-Spiele entschieden. Die AIS reagiert auf textbasierte Eingaben und ist strengstens verboten, auf Tools von Drittanbietern zugreifen zu können, was bedeutet, dass sie nicht einfach einen leistungsstarken Schachmotor wie Stockfish für den optimalen Schritt abfragen können. Um ein faires Spiel zu gewährleisten, wird es drei Wiederholungen gewährt, um ein gültiges Erstellen zu ermöglichen, bevor es das Spiel verlängert. Jeder Schritt unterliegt auch einem Zeitlimit von 60 Minuten. Die simulierten Spiele werden auf kaggle.com livestreamiert, wobei die Sendung versucht zu zeigen, wie jedes Modell”Gründe”seines nächsten Schrittes”Gründe”und wie sie auf gescheiterte Versuche reagiert. Spezifische Einblicke in die Strategien der KI geben. In der Zwischenzeit wird der internationale Meister Levy Rozman, besser bekannt als Gothamchess, eine tägliche Zusammenfassung mit eingehender Analyse auf seinem beliebten YouTube-Kanal liefern. Legendärer Weltmeister Magnus Carlse Benchmarking Allzweck-Ai
Dieses Turnier zeigt den großen Unterschied zwischen Allzweck-LLMs und spezialisierten Schach-AI. Vor Jahren hat Deepminds eigener Alphazero, ein speziell gebautes Schachmotor, den obersten konventionellen Motor, den Bestandsfisch, berühmt zerstört. Es wird nicht erwartet, dass die LLMs in diesem Turnier so makellos, übermenschliche Fähigkeiten zeigen.
Tatsächlich ist ihre Fehlbarkeit Teil des Tests. Wie Chess.com bemerkt hat, lernen Modelle wie Chatgpt und Gemini das Spiel immer noch und sind bekanntermaßen illegale Bewegungen oder treten in absurden Situationen zurück. Dies wurde im Juli lebhaft demonstriert, als Magnus Carlsen Chatgpt beiläufig besiegte, ohne ein einzelnes Stück zu verlieren. Das Versäumnis der KI, zu erkennen, dass es den weltweit bestbewerteten Spieler spielt, unterstreicht die Lücke zwischen Verarbeitungssprache und echtem kontextuellem Verständnis. Dieses Ranking basiert auf Hunderten von”hinter den Kulissen”-Spiels und bietet im Laufe der Zeit einen strengeren Benchmark. Wie Kaggle’s Meg Risdal erklärte: „Während das Turnier eine unterhaltsame Möglichkeit zum Spektat ist, wird die letzte Rangliste den strengen Maßstab der Modelle bei Schachkess darstellen, die wir im Laufe der Zeit aufrechterhalten.”