Στις 5 Αυγούστου, τα κορυφαία μοντέλα AI από το XAI, το Google και το OpenAI παρουσίασαν τις στρατηγικές τους δεξιότητες σε ένα νέο τουρνουά σκακιού. Που πραγματοποιήθηκε στο νέο Kaggle Game Arena της Google, η εκδήλωση δοκιμάζει τις ικανότητες συλλογιστικής του AIS γενικής χρήσης. Την πρώτη μέρα, το Grok 4, το Gemini 2.5 Pro, το O4-Mini και το O3 προχώρησαν με 4-0. Αυτή η κίνηση σηματοδοτεί μια μετατόπιση από στατικά σημεία αναφοράς σε δυναμικά, ανταγωνιστικά περιβάλλοντα. Προσφέρει έναν νέο τρόπο μέτρησης των δυνατοτήτων επίλυσης προβλημάτων των κορυφαίων μεγάλων γλωσσικών μοντέλων στον κόσμο. Για να δοκιμάσετε το AI. Η πρωτοβουλία, σε συνεργασία με την Google DeepMind, αντιμετωπίζει ανησυχίες ότι οι παραδοσιακές δοκιμές είναι ανεπαρκείς για τη μέτρηση της πραγματικής προόδου του AI και της πορείας της προς την τεχνητή γενική νοημοσύνη. Τουρνουά σκακιού με οκτώ κορυφαία LLMS. Η σύνθεση περιλαμβάνει το Gemini 2,5 Pro και το Flash της Google, το O3 και το O4-Mini της OpenAi, το CLAUDE 4 OPUS του Anthropic, το KIMI K2 του Moonshot του Xai’s Grok 4, Deepseek-R1 και Moonshot. Τα μοντέλα πρέπει να βασίζονται στη δική τους συλλογιστική, χωρίς πρόσβαση σε μηχανές σκακιού. Ενώ οι Victors-Grok 4, Gemini 2.5 Pro, O4-Mini και O3-όλα προχωρημένα καθαρά, η φύση των νίκες τους υπογράμμισε σημαντικά και εκπληκτικά κενά στις ικανότητες των μοντέλων για να παίξουν το παιχνίδι. Σε μια αποκαλυπτική εμφάνιση της θεμελιώδους αδυναμίας, ο Kimi K2 έχασε και τα τέσσερα παιχνίδια αφού δεν κατάφερε να προκαλέσει νομική κίνηση μέσα στις τέσσερις προσπάθειές της. Η ανάλυση υποδηλώνει ότι η Kimi K2 θα μπορούσε να ακολουθήσει τη θεωρία ανοίγματος για μερικές κινήσεις, αλλά μόλις βρισκόταν σε άγνωστο έδαφος, η κατανόησή του για το παιχνίδι αποσυντίθεται, μερικές φορές ξεχνώντας πώς τα κομμάτια κινούνται ή παρερμηνεύουν τη θέση των κομματιών στο διοικητικό συμβούλιο εξ ολοκλήρου. Αυτός ο διαγωνισμός περιγράφηκε ως”περίεργο”, που χαρακτηρίζεται από στιγμές ισχυρού, ανθρώπινου ανοίγματος που θα μεταβιβαστεί ξαφνικά σε μια σειρά από λάθη και ψευδαισθήσεις από τις δύο πλευρές. Περιεχόμενο]
Η μάχη μεταξύ του Gemini 2.5 Pro και του Claude 4 Opus ήταν ο μόνος για να διαθέτει περισσότερα παιχνίδια που τελειώνουν σε ματς από ό, τι σε απώλειες. Ωστόσο, δεν ήταν σαφές πόσο από το αποτέλεσμα οφειλόταν στο φτωχό παιχνίδι του Claude 4 Opus. Ακόμη και με ένα τεράστιο πλεονέκτημα, το Gemini 2.5 Pro έδειξε τους δικούς του περιορισμούς, κρεμασμένα κομμάτια στο δρόμο του για την παράδοση του τελικού ματς. Ενώ ο αντίπαλός του έκανε το μερίδιό του σε λάθη, ο Grok 4 εμφανίστηκε πολύ πιο σκόπιμη στη στρατηγική του, εντοπίζοντας και αξιοποιώντας με συνέπεια τα αόριστα κομμάτια και όχι απλά να περιμένουν τα σφάλματα. Musk Benchmark για γενικά Purpose AI
Το συμβάν περιλαμβάνει σχόλια από κορυφαία στοιχεία σκακιού, συμπεριλαμβανομένου του GM Hikaru Nakamura και του Im Levy Rozman, φέρνοντας το μοναδικό διαγωνισμό σε ένα παγκόσμιο ακροατήριο. Ενώ η μορφή νοκ-άουτ είναι για την επίδειξη, ο Kaggle τρέχει επίσης εκατοντάδες παιχνίδια πίσω από τις σκηνές για να δημιουργήσει ένα επίμονο leaderboard. Όπως εξήγησε ο Meg Risdal του Kaggle,”Ενώ το τουρνουά είναι ένας διασκεδαστικός τρόπος για να αντιμετωπίσετε… ο τελικός leaderboard θα αντιπροσωπεύει το αυστηρό σημείο αναφοράς των δυνατοτήτων των μοντέλων στο σκάκι που διατηρούμε με την πάροδο του χρόνου”. Το παιχνίδι Arena σχεδιάζει να επεκταθεί σε άλλα παιχνίδια όπως Go και Werewolf για να δοκιμάσει διαφορετικές πτυχές του AI Coneraging. Το τουρνουά συνεχίζεται με τα ημιτελικά στις 6 Αυγούστου.