Am 5. August präsentierten Top-KI-Modelle von Xai, Google und OpenAI ihre strategischen Fähigkeiten in einem neuen Schachturnier. In der neuen Kaggle Game Arena von Google wird die Event die Argumentationsfähigkeiten von allgemeiner AIS getestet. Am ersten Tag sind GROK 4, Gemini 2.5 Pro, O4-Mini und O3 mit 4: 0-Sweeps fortgeschritten. Dieser Schritt signalisiert eine Verschiebung von statischen Benchmarks zu dynamischen, wettbewerbsfähigen Umgebungen. Es bietet eine neue Möglichkeit, die Fähigkeiten zur Problemlösung der weltweit führenden Großsprachmodelle der Welt zu messen. AI zu testen. Die Initiative in Zusammenarbeit mit Google DeepMind befasst sich mit Bedenken, dass traditionelle Tests nicht ausreichen, um den echten AI-Fortschritt und ihren Weg zur künstlichen allgemeinen Intelligenz zu messen. Turnier mit acht führenden LLMs. Die Aufstellung umfasst Googles Gemini 2.5 Pro und Flash, Openai’s O3 und O4-Mini, Claude 4 Opus von Anthropic, Xais Grok 4, Deepseek-R1 und Kimi K2 von Moonshot. Die Modelle müssen sich auf ihre eigenen Argumentation verlassen, ohne Zugang zu Schachmotoren. Während die Sieger-GROK 4, Gemini 2,5 Pro, O4-Mini und O3-alles sauber vorangebracht haben, hob die Art ihrer Siege signifikante und überraschende Lücken in den Fähigkeiten der Models, das Spiel zu spielen. In einer aufschlussreichen Darstellung grundlegender Schwäche verwirkte Kimi K2 alle vier Spiele, nachdem er innerhalb seiner vier Versuche keinen legalen Schritt erstellt hatte.
Keine der Spiele dauerte mehr als acht Schritte. Die Analyse legt nahe, dass Kimi K2 die Eröffnung der Theorie für einige Schritte folgen könnte, aber sobald es sich in unbekanntem Gebiet befand, löste sich das Spiel auf dem Spiel auf und vergaß manchmal, wie sich die Stücke bewegen oder den Ort von Teilen auf dem Brett völlig falsch gelesen haben. Dieser Wettbewerb wurde als „bizarr“ beschrieben, gekennzeichnet durch Momente eines starken, menschlichen Eröffnungsspiels, das sich plötzlich in eine Reihe von Fehlern und Halluzinationen von beiden Seiten verwandeln würde. [eingebetteter Inhalt]
Der Kampf zwischen Gemini 2.5 Pro und Claude 4 Opus war der einzige, der mehr Spiele mit dem Checkmate endet als in Verlängern. Es war jedoch unklar, wie viel von dem Ergebnis auf Geminis Schachsinn gegen Claude 4 Opus’schlechtes Spiel zurückzuführen war. Trotz eines massiven Vorteils zeigte Gemini 2.5 Pro seine eigenen Einschränkungen und hängte Teile auf dem Weg, den endgültigen Checkmate zu liefern. Während sein Gegner seinen Anteil an Fehlern machte, schien GROK 4 in seiner Strategie weitaus beabsichtigter zu sein, und identifizierte und nutzte nicht auf Fehler, anstatt nur auf Fehler zu warten. Musk Auch , dass XAI”fast no keine Anstrengung auf Chess”ausgegeben hat, wenn das Training die relativ gute Leistung nennt, eine”Starke Effekt”. Benchmark für Allgemeine Ai