Το Kaggle της Google ξεκινά ένα νέο”Game Arena”για να δοκιμάσει πόσο καλά τα μοντέλα AI μπορούν να λόγο. Το πρώτο γεγονός είναι ένας διαγωνισμός σκακιού που ξεκινά online στις 5 Αυγούστου. Ο οκτώ κορυφαία μοντέλα AI θα ανταγωνιστεί, συμπεριλαμβανομένου του Google Gemini 2.5 Pro, του Openai’s O4-Mini και του Anthropic CLAUDE OPUS 4. δοκιμές . Ο Kaggle συνεργάζεται με το Chess.com στην εκδήλωση. Οι κορυφαίοι παίκτες σκακιού όπως ο Hikaru Nakamura και ο Magnus Carlsen θα δώσουν την ανάλυση των παιχνιδιών. Αντί να βασιζόμαστε σε στατικά σημεία αναφοράς, η Google δημιουργεί ένα δυναμικό περιβάλλον για να διερευνήσει τη στρατηγική νοημοσύνη των μοντέλων γενικής χρήσης σε έναν τομέα που έχει κυριαρχήσει από εξειδικευμένο ai. Λόγος
Το Kaggle Game Arena είναι μια συνεργασία μεταξύ της Google DeepMind και της κοινότητας των επιστημών δεδομένων της εταιρείας Kaggle. Σκοπός του είναι να παρέχει μια διαφανή και ισχυρή πλατφόρμα για τη δοκιμή των δυνατοτήτων συλλογιστικής των μεγάλων γλωσσικών μοντέλων (LLMS) σε ανταγωνιστικές, δυναμικές ρυθμίσεις. Ενώ τα μοντέλα έχουν δείξει ένα άλμα στη συλλογιστική σε ελεγχόμενες δοκιμές όπως η Διεθνής Μαθηματική Ολυμπιάδα, τέτοιες αξιολογήσεις δεν καταγράφουν τη στρατηγική σκέψη σε πραγματικό χρόνο. Η δυσκολία σε παιχνίδια όπως το σκάκι φυσικά κλιμακώνεται, καθώς οι αντίπαλοι βελτιώνονται, προσφέροντας μια πιο αυστηρή και συνεχή πρόκληση. Οι αξιολογήσεις θα διερευνήσουν τις δυνατότητες πολύ πέρα από την απλή αντιστοίχιση προτύπων, συμπεριλαμβανομένου του στρατηγικού σχεδιασμού, της μνήμης, της προσαρμογής, της εξαπάτησης και ακόμη και της”θεωρίας του μυαλού”-της ικανότητας να προβλέπουν τις σκέψεις ενός αντιπάλου. Οι leaderboards θα ενημερώνονται δυναμικά καθώς τα μοντέλα παίζουν περισσότερα παιχνίδια και τα νέα AI θα συμμετάσχουν στην κατάταξη. Οι μελλοντικοί διαγωνισμοί θα περιλαμβάνουν το παιχνίδι της αρχαίας στρατηγικής GO και το παιχνίδι κοινωνικής έκπτωσης Werewolf, το οποίο έχει σχεδιαστεί για να δοκιμάζει δεξιότητες όπως η πλοήγηση σε ελλιπείς πληροφορίες και η εξισορρόπηση της συνεργασίας κατά του ανταγωνισμού. 5-7. Ο διαγωνισμός διαθέτει μια τρομερή σύνθεση οκτώ κορυφαίων μεγάλων γλωσσικών μοντέλων, που αντιπροσωπεύει μια διατομή των πιο έντονων αντιπάλων της βιομηχανίας. Το ρόστερ περιλαμβάνει το Gemini 2,5 Pro και το Gemini 2,5 Flash της Google, το Openai O3 και O4-Mini, το CLAUDE OPUS 4, το GROK 4 του XAI, το Deepseek-R1 και το Moonshot’s Kimi 2-K2-Entruct. Κάθε μέρα, ο Kaggle θα βιώσει ένα γύρο του διαγωνισμού, ξεκινώντας από τέσσερα τέταρτα-τελικά matchups την πρώτη μέρα, ακολουθούμενη από δύο ημιτελικούς διαγωνισμούς, και κορυφώνεται σε έναν μόνο αγώνα πρωταθλήματος την τρίτη μέρα. Οι νικητές κάθε γύρου θα αποφασιστούν σε μια καλύτερη σειρά παιχνιδιών. Το AIS θα ανταποκριθεί σε εισόδους που βασίζονται σε κείμενο και απαγορεύονται αυστηρά η πρόσβαση σε οποιαδήποτε εργαλεία τρίτου μέρους, πράγμα που σημαίνει ότι δεν μπορούν απλά να αναζητήσουν έναν ισχυρό κινητήρα σκακιού όπως το Stockfish για τη βέλτιστη κίνηση. Για να εξασφαλιστεί το δίκαιο παιχνίδι, εάν ένα μοντέλο επιχειρεί μια παράνομη κίνηση, θα λάβει τρεις επαναλήψεις για να κάνει μια έγκυρη πριν πρέπει να χάσει το παιχνίδι. Κάθε κίνηση υπόκειται επίσης σε χρονικό όριο 60 λεπτών. Τα προσομοιωμένα παιχνίδια θα ζουν στο Kaggle.com, με την εκπομπή να προσπαθεί να δείξει πώς κάθε μοντέλο”λόγοι”για την επόμενη κίνηση του και πώς ανταποκρίνεται στις αποτυχημένες προσπάθειες. Εμπειρογνώμονες σχετικά με τις στρατηγικές του AI. Εν τω μεταξύ, ο διεθνής Master Levy Rozman, γνωστός ως Gothamchess, θα παραδώσει μια καθημερινή ανασκόπηση με σε βάθος ανάλυση στο δημοφιλές κανάλι του YouTube. Ο θρυλικός παγκόσμιος πρωταθλητής magnus carlse n θα παράσχει μια τελική ανασκόπηση και μοιράζεται τις σκέψεις του στον αγώνα του πρωταθλήματος και τη συνολική απόδοση των ικανών AI, Benchmarking Γενικά Purpose AI
Αυτό το τουρνουά υπογραμμίζει τη μεγάλη διαφορά μεταξύ των LLMs γενικής χρήσης και του εξειδικευμένου σκακιού AI. Πριν από χρόνια, το Alphazero της Deepmind, ένας μηχανισμός σκακιού που κατασκευάστηκε με σκοπό, συνθλίβει τον κορυφαίο συμβατικό κινητήρα, το Stockfish. Τα LLMs σε αυτό το τουρνουά δεν αναμένεται να εμφανίσουν τέτοια άψογη, υπεράνθρωπη ικανότητα. Όπως έχει σημειώσει το Chess.com, μοντέλα όπως το ChatGPT και το Gemini μαθαίνουν ακόμα το παιχνίδι και είναι γνωστό ότι κάνουν παράνομες κινήσεις ή παραιτούνται σε παράλογες καταστάσεις. Αυτό αποδείχθηκε έντονα τον Ιούλιο, όταν ο Magnus Carlsen νίκησε τυχαία το Chatgpt χωρίς να χάσει ένα κομμάτι. Η αποτυχία του AI να αναγνωρίσει ότι έπαιζε ο κορυφαίος παίκτης του κόσμου υπογραμμίζει το χάσμα μεταξύ της γλώσσας επεξεργασίας και της αληθινής κατανόησης του συμφραζόμενου. Αυτή η κατάταξη θα βασίζεται σε εκατοντάδες παιχνίδια”πίσω από τις σκηνές”, προσφέροντας ένα πιο αυστηρό σημείο αναφοράς με την πάροδο του χρόνου. Όπως εξήγησε ο Meg Risdal του Kaggle,”Ενώ το τουρνουά είναι ένας διασκεδαστικός τρόπος για να σκεφτούμε… ο τελικός leaderboard θα αντιπροσωπεύει το αυστηρό σημείο αναφοράς των δυνατοτήτων των μοντέλων στο σκάκι που διατηρούμε με την πάροδο του χρόνου.”