Το Google DeepMind αποκάλυψε το SIMA 2 την Πέμπτη, έναν νέο πράκτορα τεχνητής νοημοσύνης που χρησιμοποιεί το μοντέλο Gemini για να μαθαίνει και να ενεργεί μέσα σε 3D βιντεοπαιχνίδια. Σε αντίθεση με τον προκάτοχό του, το SIMA 2 μπορεί να σκέφτεται στόχους υψηλού επιπέδου, να μιλάει με χρήστες και να διδάσκεται νέες δεξιότητες.

Έχει εκπαιδευτεί σε δημοφιλή παιχνίδια όπως το Goat Simulator 3 και δεν έχει ξαναπαίξει ποτέ σε κόσμους. Το έργο της DeepMind είναι ένα βασικό βήμα προς τον στόχο της δημιουργίας γενικής τεχνητής νοημοσύνης. Το εργαστήριο ελπίζει ότι οι δεξιότητες που μαθαίνονται στα παιχνίδια μια μέρα θα τροφοδοτήσουν χρήσιμα ρομπότ στον πραγματικό κόσμο.

Από το Instruction-Follower στο Reasoning Companion

Με την ενσωμάτωση ενός μοντέλου Gemini στον πυρήνα του, το SIMA 2 κινείται πέρα ​​από απλές εντολές. Ο προκάτοχός του, το αρχικό SIMA που παρουσιάστηκε τον Μάρτιο του 2024, ήταν ένα κρίσιμο πρώτο βήμα, μαθαίνοντας να εκτελεί περισσότερα από 600 likes”laderskill-follow”διάφορους εικονικούς κόσμους.

Αυτός ο πράκτορας λειτουργούσε παρακολουθώντας την οθόνη και χρησιμοποιώντας εικονικό πληκτρολόγιο και ποντίκι, όπως θα έκανε ένας άνθρωπος παίκτης. Το SIMA 2 βασίζεται σε αυτό το θεμέλιο, αλλά προσθέτει ένα κρίσιμο επίπεδο γνώσης, το οποίο εξελίσσεται από εργαλείο σε διαδραστικό συνεργάτη.

Τώρα, ο πράκτορας μπορεί να κατανοήσει τον στόχο υψηλού επιπέδου ενός χρήστη και τους λόγους σχετικά με τα βήματα που απαιτούνται για την επίτευξή του.

Αυτό μετατρέπει την αλληλεπίδραση από την παροχή εντολών σε συνεργασία με έναν παράγοντα δύναμης που βρίσκεται πίσω από τον

έρευνα για αρκετό καιρό”, ο Joe Marino, ερευνητής στο Google DeepMind, κατά τη διάρκεια μιας συνέντευξης Τύπου.

Η ενσωμάτωση του Gemini επιτρέπει στο SIMA 2 να περιγράφει τις προθέσεις του και να εξηγεί τις ενέργειές του, καθιστώντας τη διαδικασία πιο διαφανή και διαδραστική για τον χρήστη.

[ενσωματωμένο περιεχόμενο]

Το πρόγραμμα εκπαίδευσης περιλάμβανε έναν συνδυασμό ανθρώπινων βίντεο και ετικέτες Gemini. Η DeepMind συνεργάστηκε με πολλούς προγραμματιστές παιχνιδιών, συμπεριλαμβανομένων των Coffee Stain (Valheim, Satisfactory, Goat Simulator 3), Hello Games (No Man’s Sky) και Tuxedo Labs (Teardown), σε χτίστε ένα ποικίλο έδαφος εκπαίδευσης.

Η έκθεση σε διαφορετικά είδη είναι βασική για την ανάπτυξη ενός γενικού περιβάλλοντος παιχνιδιού και για την ανάπτυξη ενός βασικού περιβάλλοντος παιχνιδιού. κανόνες.

Ένας ενάρετος κύκλος: Αυτοβελτίωση σε δημιουργημένους κόσμους

Μία από τις πιο σημαντικές εξελίξεις του SIMA 2 είναι η ικανότητά του να βελτιώνεται από μόνο του. Μετά από μια αρχική φάση μάθησης από ανθρώπινες επιδείξεις, ο πράκτορας μπορεί να εισέλθει σε έναν βρόχο αυτοβελτίωσης.

Εξασκείται σε νέα παιχνίδια μέσω αυτοκατευθυνόμενου παιχνιδιού, χρησιμοποιώντας δοκιμή και σφάλμα και λήψη σχολίων από το μοντέλο Gemini για να βελτιώσει τις δεξιότητές του.

Αυτή η διαδικασία του επιτρέπει να κατακτήσει νέες εργασίες χωρίς να απαιτεί πρόσθετα δεδομένα

μείζονος μάθησης

Για να ωθήσει τα όρια αυτής της δυνατότητας, η DeepMind συνδύασε το SIMA 2 με ένα άλλο από τα φιλόδοξα έργα της: το Genie 3.

Το Genie 3 είναι ένα παγκόσμιο μοντέλο που μπορεί να δημιουργήσει νέα περιβάλλοντα 3D με δυνατότητα αναπαραγωγής από ένα απλό μήνυμα κειμένου. Η αρχιτεκτονική του έχει σχεδιαστεί για συνέπεια και, όπως εξήγησε ο Διευθυντής Έρευνας Shlomi Fruchter,”αυτόματο παλινδρομικό, που σημαίνει ότι δημιουργεί ένα καρέ τη φορά. Πρέπει να κοιτάξει πίσω σε αυτό που δημιουργήθηκε πριν για να αποφασίσει τι πρόκειται να συμβεί στη συνέχεια.”

Η διαδοχική παραγωγή είναι ζωτικής σημασίας για τη δημιουργία σταθερών κόσμων όπου ένας πράκτορας μπορεί να μάθει εντελώς.

κόσμο, επέδειξε μια αξιοσημείωτη ικανότητα προσαρμογής, προσανατολισμού και εκτέλεσης οδηγιών χρήστη.

Αυτή η συνέργεια δημιουργεί ένα ισχυρό εκπαιδευτικό dojo. Το Genie 3 μπορεί να δημιουργήσει μια σχεδόν άπειρη ποικιλία σεναρίων, παρέχοντας ένα ατελείωτο πρόγραμμα σπουδών για να μάθει το SIMA 2.

Η στρατηγική της DeepMind για την οικοδόμηση πιο ισχυρής και προσαρμόσιμης τεχνητής νοημοσύνης βασίζεται σε αυτήν την προσέγγιση.

“Πιστεύουμε ότι τα παγκόσμια μοντέλα είναι το κλειδί στο μονοπάτι προς το AGI, ειδικά για έναν πραγματικό κόσμο όπου ενσωματώνεται ο πραγματικός κόσμος, ο συγκεκριμένος κόσμος είναι ενσωματωμένος. προκλητικό», εξήγησε ο Jack Parker-Holder, ένας ερευνητής στην ομάδα.

Η προσομοίωση αμέτρητων καταστάσεων είναι ένας ασφαλέστερος και αποτελεσματικότερος τρόπος για να διδάξετε μια τεχνητή νοημοσύνη σχετικά με την πολυπλοκότητα της αλληλεπίδρασης.

Beyond the Game: The Path to Embodied AGI and Its Hurdles είναι τα παιχνίδια Η απόλυτη φιλοδοξία του DeepMind βρίσκεται στον φυσικό κόσμο. Δεξιότητες που μαθαίνει η SIMA 2 – πλοήγηση, χρήση εργαλείων, προγραμματισμός και συνεργασία – αποτελούν θεμελιώδη δομικά στοιχεία για την ενσωματωμένη νοημοσύνη.

Η εταιρεία βλέπει αυτήν την έρευνα ως μια άμεση διαδρομή προς τη δημιουργία ικανών βοηθών τεχνητής νοημοσύνης και ρομπότ που μπορούν να λειτουργούν με ασφάλεια και αποτελεσματικότητα σε ανθρώπινα περιβάλλοντα.

“Το SIMA 2 επιβεβαιώνει ότι η επιτυχής ικανότητα μιας τεχνητής νοημοσύνης μπορεί να εκπαιδεύσει με επιτυχία… εξειδικευμένα συστήματα σε έναν συνεκτικό, γενικό πράκτορα», ανέφερε η Ομάδα SIMA στην ανακοίνωσή της, πλαισιώνοντας το έργο ως ενοποίηση εξειδικευμένων συστημάτων σε έναν ενιαίο, συνεκτικό πράκτορα.

Ωστόσο, η διαδρομή από τους εικονικούς κόσμους στην πραγματικότητα είναι γεμάτη προκλήσεις. Οι ειδικοί στον τομέα, ενώ αναγνωρίζουν το τεχνικό επίτευγμα, ζητούν προσοχή σχετικά με την άμεση εφαρμογή αυτών των δεξιοτήτων.

Ο Τζούλιαν Τογκέλιους, ερευνητής τεχνητής νοημοσύνης στο Πανεπιστήμιο της Νέας Υόρκης, τόνισε τη δυσκολία της προσέγγισης, σημειώνοντας ότι «το παιχνίδι σε πραγματικό χρόνο μόνο από οπτική είσοδο είναι «σκληρή λειτουργία». Ο πράκτορας πρέπει να ερμηνεύει ακατέργαστα pixel χωρίς υποκείμενα δεδομένα παιχνιδιού, μια εργασία που είναι υπολογιστικά εντατική και επιρρεπής σε σφάλματα.

Επιπλέον, υπάρχουν ερωτήσεις σχετικά με το πόσο καλά αυτές οι μαθημένες συμπεριφορές θα μεταφερθούν στη ρομποτική.

Categories: IT Info