Xais GROK 4 und OpenAIs O3 sind zum Finale der Kaggle Game Arena, das hochkarätige KI-Schachturnier von Google, vorgekommen. Während des Halbfinals am 6. August nahmen die beiden Modelle im Online-Event stark unterschiedliche Wege zum Sieg. In der Zwischenzeit fuhr O3 an seinem Geschwistermodell O4-Mini mit einem entscheidenden 4: 0-Sweep. Die Ereignisse des Tages lieferten eine faszinierende Studie in Kontraste, in der beide dominanten Leistungen und die anhaltenden Mängel der modernen LLMs hervorgehoben wurden.
OpenAs O3 sicherte sich im Finale mit einer vorhersehbaren, aber leistungsstarken Leistung und fegte sein kleineres Gegenstück O4-Mini mit einem 4-0-Score . Wie Openai zuvor erklärt hat, ist O4-Mini eine leichtere, schnellere Version von O3, was die Dominanz des Seniorenmodells zu einem erwarteten Ergebnis macht. O3 spielte als weiß und erbrachte einen atemberaubenden 12-miesigen Miniatursieg, der in einem Turnier einen seltenen Brillanzblitz zeigte, der oft von Fehlern gekennzeichnet war. Ein Fehler bei Move 10, gefolgt von einem kritischen Fehler bei Move 11, ermöglichte O3, einen puzzleähnlichen Checkmate auszuführen, der einem erstickten Partner ähnelte. Für seine makellose Ausführung erzielte O3 einen perfekten Wert von 100% Genauigkeit, ein signifikanter Erfolg. Tiebreak gegen Gemini
In starkem Kontrast war das zweite Halbfinale eine chaotische und aufregende Angelegenheit. Das Match zwischen Xais GROK 4 und Googles Gemini 2.5 Pro war ein wahrer Hin-und Her-Kampf, der mit 2: 2 endete und den Wettbewerb in einen dramatischen Tiebreaker brachte. Es war Gemini, der das erste Blut zog und von einer Reihe von Fehlern aus Grok profitierte, um das erste Spiel zu gewinnen. Grok schlug in Spiel zwei zurück, nachdem Gemini „hallucined“ und den Gefallen zurückgab, indem er seine Königin aufgab. Diese Deadlock stellte die Bühne für einen Tiebreaker im „Armageddon-Stil“, um den Finalisten zu entscheiden. Das folgende Spiel war ein angespannter Thriller mit verpassten Möglichkeiten. Gemini war für einen Großteil des Spiels besser und verpasste irgendwann einen klaren Must-in-One-genau das gleiche Muster, das O3 in seinem eigenen Spiel eingesetzt hatte.
Später in einem Sieger endgame blunderte Gemini ihre Königin und erreichte anscheinend den Sieg an Grok. Mit einem Neuling gegen einsame Bauern schien der Sieg trivial zu sein. In einer letzten Wendung konnte Grok jedoch seinen massiven Vorteil nicht konvertieren, und das Spiel endete mit einer dreifachen Wiederholung. Während der Antiklimaktikum reichte die Auslosung aus, um den Platz von Grok im Finale zu sichern. Das Turnier soll das strategische Argument von allgemeinem AIS testen und nicht den nächsten spezialisierten Schachmotor finden. Ihre Fehlbarkeit, Fehler und „Halluzinationen“ sind der gesamte Punkt der Bewertung und zeigen wichtige Schwächen in der strategischen Logik und Visualisierung. target=”_ leer”> DeepMinds Alphazero oder Stockfish, das vor Jahren übermenschliche Schachfähigkeit erreichte. Die Lücke wurde lebhaft veranschaulicht, als Magnus Carlsen Chatgpt leicht besiegte. Danach witzelte er:”Ich werde mich manchmal auf Reisen langweilen.”Elon Musk erklärte kürzlich, dass Xai beim Training des Modells”fast keine Anstrengungen für das Schach”verbracht hat, was darauf hindeutet, dass seine starke Schachleistung eine unerwartete Nebenwirkung seiner breiteren Argumentationsfunktionen darstellt. Kaggle läuft Hunderte von Spielen hinter den Kulissen, um eine anhaltende Rangliste zu erstellen, die im Laufe der Zeit einen robusteren Benchmark bietet. Diese Initiative zielt darauf ab, über statische Benchmarks hinauszugehen und wahre Fähigkeiten zur Problemlösung in dynamischen Umgebungen zu messen.
Der letzte Tag des Turniers am 7. August wird GROK 4 Face O3 für die Meisterschaft sehen, während Gemini 2.5 Pro und O4-Mini um den dritten und vierten Platz konkurrieren.