Το Xai's Grok 4 και το Openai's O3 Advance στον τελικό στο τουρνουά σκακιού του Kaggle μετά από δραματικά ημιτελικά

XAI’s Grok 4 και Openai’s O3 έχουν προχωρήσει στον τελικό του Kaggle Game Arena, το τουρνουά AI σκακιού της Google. Κατά τη διάρκεια των ημιτελικών στις 6 Αυγούστου, τα δύο μοντέλα έλαβαν έντονα διαφορετικά μονοπάτια για τη νίκη στο online εκδήλωση. Εν τω μεταξύ, το O3 ταξίδεψε πέρα από το μοντέλο του, O4-Mini, με αποφασιστική 4-0 σκούπισμα. Τα γεγονότα της ημέρας έδωσαν μια συναρπαστική μελέτη σε αντίθεση, υπογραμμίζοντας τόσο τις κυρίαρχες επιδόσεις όσο και τα επίμονα ελαττώματα των σύγχρονων LLMS. Το Sweep

OpenAi’s O3 εξασφάλισε το σημείο του στον τελικό με μια προβλέψιμη αλλά ισχυρή απόδοση, σκουπίζοντας το μικρότερο ομόλογό του, o4-mini, με ένα

Τα υπόλοιπα παιχνίδια στον αγώνα ακολούθησαν μια παρόμοια αφήγηση, με το O4-Mini να χάσει σταθερά το νήμα και να κάνει κρίσιμα σφάλματα κάτω από την πίεση, επιτρέποντας το O3 για να μετατρέψει τα πλεονεκτήματα του καθαρά και να προχωρήσει στον αγώνα πρωταθλήματος χωρίς να πέφτει ένα σημείο. Tiebreak εναντίον Gemini

Σε έντονη αντίθεση, ο δεύτερος ημιτελικός ήταν μια χαοτική και συναρπαστική υπόθεση. Ο αγώνας μεταξύ του Xai’s Grok 4 και του Gemini 2,5 Pro της Google ήταν μια αληθινή μάχη που έληξε σε ισοπαλία 2-2, ωθώντας τον διαγωνισμό σε ένα δραματικό tiebreaker. Ήταν ο Δίδυμος που επέστησε το πρώτο αίμα, αξιοποιώντας μια σειρά από σφάλματα από το Grok για να κερδίσει το πρώτο παιχνίδι. Ο Grok χτύπησε πίσω στο παιχνίδι δύο μετά από το Gemini”παραισθησιογόνο”και επέστρεψε την εύνοια δίνοντας τη βασίλισσα του. Αυτό το αδιέξοδο έθεσε τη σκηνή για ένα”Armageddon-style”tiebreaker για να αποφασίσει τον φιναλίστ.

Σε αυτή τη μορφή, ο Grok έπαιξε με τα μαύρα κομμάτια και του δόθηκε αποδόσεις ισοπαλίας, που σημαίνει ότι μια ισοπαλία θα μετράνε ως νίκη. Το παιχνίδι που ακολούθησε ήταν ένα τεταμένο θρίλερ γεμάτο με χαμένες ευκαιρίες. Ο Δίδυμος ήταν καλύτερος για μεγάλο μέρος του παιχνιδιού και σε ένα σημείο έχασε έναν καθαρό mate-in-one-χρησιμοποιώντας το ίδιο ακριβώς μοτίβο O3 είχε χρησιμοποιήσει στον δικό του αγώνα.

Αργότερα σε ένα νικηφόρο endgame, ο Δίδυμος γέλασε τη βασίλισσα της, φαινομενικά παραδίδοντας τη νίκη στο Grok. Με ένα Rook ενάντια σε μοναχικά πιόνια, η νίκη εμφανίστηκε ασήμαντη. Ωστόσο, σε μια τελική συστροφή, ο Grok απέτυχε να μετατρέψει το τεράστιο πλεονέκτημά του και το παιχνίδι τελείωσε σε ισοπαλία με τριπλή επανάληψη. Ενώ η αντιλατική, η κλήρωση ήταν αρκετή για να εξασφαλίσει το σημείο του Grok στον τελικό. Το τουρνουά έχει σχεδιαστεί για να δοκιμάσει τη στρατηγική συλλογιστική του AIS γενικής χρήσης, για να μην βρει τον επόμενο εξειδικευμένο κινητήρα σκακιού. Η φτωχή τους, τα λάθη και οι”ψευδαισθήσεις”είναι ολόκληρο το σημείο της αξιολόγησης, αποκαλύπτοντας τις βασικές αδυναμίες στη στρατηγική λογική και την απεικόνιση. Target=”_ Blank”> Το Alphazero του DeepMind ή το Stockfish, το οποίο πέτυχε υπεράνθρωπη ικανότητα σκακιού πριν από χρόνια. Το χάσμα απεικονίστηκε έντονα όταν ο Magnus Carlsen νίκησε εύκολα το ChatGpt, μετά από το οποίο είπε: «Μερικές φορές βαρεθεί ενώ ταξιδεύει», υπογραμμίζοντας τη βαθιά έλλειψη κατανόησης του AI. Ο Elon Musk δήλωσε πρόσφατα ότι ο Xai”δεν πέρασε σχεδόν καμία προσπάθεια στο σκάκι”κατά την εκπαίδευση του μοντέλου, υποδηλώνοντας ότι η ισχυρή απόδοση του σκακιού είναι μια απροσδόκητη παρενέργεια των ευρύτερων δυνατοτήτων λογικής του. Ο Kaggle τρέχει εκατοντάδες παιχνίδια πίσω από τις σκηνές για να δημιουργήσει ένα επίμονο leaderboard που θα προσφέρει ένα πιο ισχυρό δείκτη αναφοράς με την πάροδο του χρόνου.

Όπως ο Meg Risdal του Kaggle εξήγησε σε μια προηγούμενη δήλωση:”Ενώ το τουρνουά είναι ένας διασκεδαστικός τρόπος για να σκεφτούμε… το τελικό leaderboard θα αντιπροσωπεύει το αυστηρό benchmark των δυνατοτήτων των μοντέλων στο Chess που διατηρούμε την πάροδο του χρόνου. Αυτή η πρωτοβουλία στοχεύει να προχωρήσει πέρα από τα στατικά σημεία αναφοράς και να μετρήσει τις πραγματικές δεξιότητες επίλυσης προβλημάτων σε δυναμικά περιβάλλοντα.

Η τελευταία ημέρα του τουρνουά στις 7 Αυγούστου θα δει το Grok 4 Face O3 για το πρωτάθλημα, ενώ το Gemini 2.5 Pro και το O4-Mini θα ανταγωνιστεί για την τρίτη θέση και την τέταρτη θέση, καταλήγοντας σε ένα συναρπαστικό πείραμα στο AI.

Το Xai’s Grok 4 και το Openai’s O3 Advance στον τελικό στο τουρνουά σκακιού του Kaggle μετά από δραματικά ημιτελικά

Published by All Things Windows on August 7, 2025

IT Info

Ο Yue ξεκινά ως γεννήτρια τραγουδιών ανοιχτού κώδικα AI

IT Info

CMD: 13 βασικές εντολές που πρέπει να γνωρίζετε (CD, DIR, MKDIR, κ.λπ.)

IT Info

Ο Διευθύνων Σύμβουλος της Intel καταπολεμά τον πόλεμο δύο μπροστά, καθώς το Trump απαιτεί παραίτηση εν μέσω εξέγερσης του διοικητικού συμβουλίου

Το Xai’s Grok 4 και το Openai’s O3 Advance στον τελικό στο τουρνουά σκακιού του Kaggle μετά από δραματικά ημιτελικά

Published by All Things Windows on August 7, 2025

Related Posts

IT Info

Ο Yue ξεκινά ως γεννήτρια τραγουδιών ανοιχτού κώδικα AI

IT Info

CMD: 13 βασικές εντολές που πρέπει να γνωρίζετε (CD, DIR, MKDIR, κ.λπ.)

IT Info

Ο Διευθύνων Σύμβουλος της Intel καταπολεμά τον πόλεμο δύο μπροστά, καθώς το Trump απαιτεί παραίτηση εν μέσω εξέγερσης του διοικητικού συμβουλίου