XAI’s Grok 4 και Openai’s O3 έχουν προχωρήσει στον τελικό του Kaggle Game Arena, το τουρνουά AI σκακιού της Google. Κατά τη διάρκεια των ημιτελικών στις 6 Αυγούστου, τα δύο μοντέλα έλαβαν έντονα διαφορετικά μονοπάτια για τη νίκη στο online εκδήλωση. Εν τω μεταξύ, το O3 ταξίδεψε πέρα από το μοντέλο του, O4-Mini, με αποφασιστική 4-0 σκούπισμα. Τα γεγονότα της ημέρας έδωσαν μια συναρπαστική μελέτη σε αντίθεση, υπογραμμίζοντας τόσο τις κυρίαρχες επιδόσεις όσο και τα επίμονα ελαττώματα των σύγχρονων LLMS. Το Sweep
OpenAi’s O3 εξασφάλισε το σημείο του στον τελικό με μια προβλέψιμη αλλά ισχυρή απόδοση, σκουπίζοντας το μικρότερο ομόλογό του, o4-mini, με ένα
Τα υπόλοιπα παιχνίδια στον αγώνα ακολούθησαν μια παρόμοια αφήγηση, με το O4-Mini να χάσει σταθερά το νήμα και να κάνει κρίσιμα σφάλματα κάτω από την πίεση, επιτρέποντας το O3 για να μετατρέψει τα πλεονεκτήματα του καθαρά και να προχωρήσει στον αγώνα πρωταθλήματος χωρίς να πέφτει ένα σημείο. Tiebreak εναντίον Gemini
Σε έντονη αντίθεση, ο δεύτερος ημιτελικός ήταν μια χαοτική και συναρπαστική υπόθεση. Ο αγώνας μεταξύ του Xai’s Grok 4 και του Gemini 2,5 Pro της Google ήταν μια αληθινή μάχη που έληξε σε ισοπαλία 2-2, ωθώντας τον διαγωνισμό σε ένα δραματικό tiebreaker. Ήταν ο Δίδυμος που επέστησε το πρώτο αίμα, αξιοποιώντας μια σειρά από σφάλματα από το Grok για να κερδίσει το πρώτο παιχνίδι. Ο Grok χτύπησε πίσω στο παιχνίδι δύο μετά από το Gemini”παραισθησιογόνο”και επέστρεψε την εύνοια δίνοντας τη βασίλισσα του. Αυτό το αδιέξοδο έθεσε τη σκηνή για ένα”Armageddon-style”tiebreaker για να αποφασίσει τον φιναλίστ. Σε αυτή τη μορφή, ο Grok έπαιξε με τα μαύρα κομμάτια και του δόθηκε αποδόσεις ισοπαλίας, που σημαίνει ότι μια ισοπαλία θα μετράνε ως νίκη. Το παιχνίδι που ακολούθησε ήταν ένα τεταμένο θρίλερ γεμάτο με χαμένες ευκαιρίες. Ο Δίδυμος ήταν καλύτερος για μεγάλο μέρος του παιχνιδιού και σε ένα σημείο έχασε έναν καθαρό mate-in-one-χρησιμοποιώντας το ίδιο ακριβώς μοτίβο O3 είχε χρησιμοποιήσει στον δικό του αγώνα. Αργότερα σε ένα νικηφόρο endgame, ο Δίδυμος γέλασε τη βασίλισσα της, φαινομενικά παραδίδοντας τη νίκη στο Grok. Με ένα Rook ενάντια σε μοναχικά πιόνια, η νίκη εμφανίστηκε ασήμαντη. Ωστόσο, σε μια τελική συστροφή, ο Grok απέτυχε να μετατρέψει το τεράστιο πλεονέκτημά του και το παιχνίδι τελείωσε σε ισοπαλία με τριπλή επανάληψη. Ενώ η αντιλατική, η κλήρωση ήταν αρκετή για να εξασφαλίσει το σημείο του Grok στον τελικό. Το τουρνουά έχει σχεδιαστεί για να δοκιμάσει τη στρατηγική συλλογιστική του AIS γενικής χρήσης, για να μην βρει τον επόμενο εξειδικευμένο κινητήρα σκακιού. Η φτωχή τους, τα λάθη και οι”ψευδαισθήσεις”είναι ολόκληρο το σημείο της αξιολόγησης, αποκαλύπτοντας τις βασικές αδυναμίες στη στρατηγική λογική και την απεικόνιση. Target=”_ Blank”> Το Alphazero του DeepMind
Όπως ο Meg Risdal του Kaggle εξήγησε σε μια προηγούμενη δήλωση:”Ενώ το τουρνουά είναι ένας διασκεδαστικός τρόπος για να σκεφτούμε… το τελικό leaderboard θα αντιπροσωπεύει το αυστηρό benchmark των δυνατοτήτων των μοντέλων στο Chess που διατηρούμε την πάροδο του χρόνου. Αυτή η πρωτοβουλία στοχεύει να προχωρήσει πέρα από τα στατικά σημεία αναφοράς και να μετρήσει τις πραγματικές δεξιότητες επίλυσης προβλημάτων σε δυναμικά περιβάλλοντα.
Η τελευταία ημέρα του τουρνουά στις 7 Αυγούστου θα δει το Grok 4 Face O3 για το πρωτάθλημα, ενώ το Gemini 2.5 Pro και το O4-Mini θα ανταγωνιστεί για την τρίτη θέση και την τέταρτη θέση, καταλήγοντας σε ένα συναρπαστικό πείραμα στο AI.