Το Google DeepMind αποκάλυψε το Genie 3, ένα νέο μοντέλο AI που δημιουργεί παγκόσμιους κόσμους 3D από απλές εντολές κειμένου. Ανακοινώθηκε την Τρίτη, το σύστημα δημιουργεί αυτά τα διαδραστικά περιβάλλοντα σε πραγματικό χρόνο, ένα σημαντικό βήμα από την προηγούμενη έκδοση του. Η DeepMind βλέπει αυτή την τεχνολογία ως βασικό μέρος της πορείας της προς την τεχνητή γενική νοημοσύνη (AGI). Με τους παράγοντες δοκιμών σε αμέτρητους νέους κόσμους, το εργαστήριο στοχεύει στην κατασκευή AI που μπορεί να χειριστεί σύνθετα, πραγματικό κόσμο. Υπογραμμίζει μια σαφή δέσμευση για τη δημιουργία AI που κατανοεί και προσομοιώνει τη φυσική πραγματικότητα, με μελλοντικές εφαρμογές στο παιχνίδι, το σχεδιασμό και τη ρομποτική. Λεπτά: Ένα άλμα στην παγκόσμια γενιά σε πραγματικό χρόνο

Το Genie 3 αντιπροσωπεύει ένα σημαντικό τεχνικό άλμα σε σχέση με τον προκάτοχό του, Genie 2, που μετακινείται από μια πολλά υποσχόμενη απόδειξη της έννοιας σε μια πολύ πιο ικανή πλατφόρμα. Το νέο μοντέλο δημιουργεί διαδραστικούς κόσμους σε ανάλυση 720p, μια σημαντική αναβάθμιση από την έξοδο 360p του πρόδρομου του. Λειτουργεί επίσης σε υγρό 24 καρέ ανά δευτερόλεπτο, καθιστώντας την εμπειρία σε πραγματικό χρόνο πιο ομαλή και πιο εντυπωσιακή. While Genie 2 simulations often began to show visual artifacts and degrade after just 10 to 20 seconds, Genie 3 can sustain a coherent and visually consistent world for “several minutes,”according to DeepMind. Αυτή η μακροζωία είναι ζωτικής σημασίας για την καθιέρωση οποιασδήποτε ουσιαστικής αλληλεπίδρασης ή εκπαίδευσης πράκτορα εντός των παραγόμενων περιβαλλόντων. Αυτή η λειτουργία επιτρέπει σε έναν χρήστη να μεταβάλλει δυναμικά την προσομοίωση με νέες εντολές κειμένου μετά τη δημιουργία του αρχικού κόσμου. Για παράδειγμα, ένας χρήστης θα μπορούσε να εξερευνήσει ένα δημιουργημένο περιβάλλον και στη συνέχεια να εκδώσει μια εντολή για να εισαγάγει ένα κοπάδι ελάφια ή ξαφνικά να αλλάξει τις καιρικές συνθήκες, τις οποίες το μοντέλο θα εκτελέσει σε πραγματικό χρόνο. Αυτό μετατρέπει την προσομοίωση από έναν στατικό χώρο σε ένα ανταποκρινόμενο και επεξεργάσιμο, ένα κρίσιμο βήμα για τη δημιουργία πιο σύνθετων και χρήσιμων σεναρίων. Το DeepMind ονομάζει αυτή την”αναδυόμενη ικανότητα”, όπου το μοντέλο θυμάται τα στοιχεία εκτός οθόνης για ένα λεπτό. Αυτό εμποδίζει τα εικαστικά αντικείμενα που δεν έχουν τα προηγούμενα μοντέλα. είναι κεντρικό για την επιτυχία του. Ο Shlomi Fruchter, διευθυντής έρευνας στο Google Deepmind, το περιέγραψε ως το”πρώτο διαδραστικό μοντέλο διαδραστικού γενικού σκοπού”. Αυτή η διαδοχική διαδικασία βασισμένη στη μνήμη είναι αυτό που επιτρέπει στον Genie 3 να κατασκευάσει μια διαισθητική και συνεπής κατανόηση της φυσικής χωρίς να βασίζεται σε έναν σκληρό κώδικα κινητήρα. Έρευνα AI. Το εργαστήριο τοποθετεί το μοντέλο ως ένα κρίσιμο εργαλείο για την εκπαίδευση που ενσωματώνουν τους πράκτορες AI-συστήματα όπως ρομπότ ή εικονικά avatars που έχουν σχεδιαστεί για να λειτουργούν σε φυσικούς χώρους. Bottleneck στη ρομποτική και την ανάπτυξη AI. Οι πράκτορες κατάρτισης στον πραγματικό κόσμο είναι αργοί, ακριβοί και δυνητικά επικίνδυνοι. Τα παγκόσμια μοντέλα όπως το Genie 3 προσφέρουν μια λύση παρέχοντας ένα ασφαλές, κλιμακωτό και απείρως μεταβλητό sandbox για μάθηση. Η ατελείωτη ποικιλία των σεναρίων”τι γίνεται αν”, το Genie 3 μπορεί να χρησιμοποιηθεί για να διδάξει τα συστήματα AI πώς να χειρίζονται καταστάσεις που δεν καλύπτονται από την αρχική τους εκπαίδευση. Για παράδειγμα, όπως σημειώνεται από τον Διευθυντή Έρευνας της DeepMind, θα μπορούσε να χρησιμοποιηθεί για να εκπαιδεύσει ένα αυτο-οδήγησης αυτοκινήτου για το πώς να αντιδράσει σε έναν πεζό που εμφανίζεται ξαφνικά, χωρίς να χρειάζεται ποτέ να διακινδυνεύσει μια πραγματική σύγκρουση. Genie 3 με το sima πράκτορας . Στις διαδηλώσεις, ο πράκτορας έλαβε ξεχωριστούς στόχους και έπρεπε να τις επιτύχει στέλνοντας εντολές πλοήγησης στο Genie 3. Το παγκόσμιο μοντέλο, αγνοώντας τον στόχο του πράκτορα, απλώς θα προσομοιώνει τις φυσικές συνέπειες αυτών των ενεργειών, αναγκάζοντας τη Sima να σχεδιάσει και να εκτελέσει μια μακρύτερη ακολουθία ενεργειών για να επιτύχει. Αυτό γίνεται ένα ιδανικό έδαφος κατάρτισης όπου οι πράκτορες ωθούνται στα όριά τους, αναγκάζονται να αγωνίζονται και να βελτιώνουν μέσω δοκιμών και σφάλματος με τρόπο που να αντικατοπτρίζει τον τρόπο με τον οποίο οι άνθρωποι μαθαίνουν. Η υποκείμενη πεποίθηση που μοιράζεται σε ολόκληρο τον κλάδο είναι ότι ένα AI πρέπει πρώτα να μάθει να”σκέφτεται”και να σχεδιάσει μέσα σε μια ακριβή εσωτερική προσομοίωση της πραγματικότητας, προτού να μπορέσει να εμπιστευτεί να ενεργεί αξιόπιστα στον φυσικό κόσμο. Πρότεινε ότι η βιομηχανία δεν έχει ακόμη «μετακινηθεί 37 στιγμή για τους ενσωματωμένους πράκτορες», όπου μπορούν να «λάβουν πραγματικά καινοτόμες ενέργειες στον πραγματικό κόσμο». Για την ενσωματωμένη AI, μια τέτοια στιγμή παραμένει η απόλυτη, που πρέπει να γίνει, που θα είναι και η επανάσταση, ότι τα μοντέλα του κόσμου, όπως το Genie 3, έχουν σχεδιαστεί για μια ημέρα που ενεργοποιεί. Το μοντέλο απελευθερώνεται ως”περιορισμένη ερευνητική προεπισκόπηση”σε μια μικρή ομάδα ακαδημαϊκών και δημιουργών, όχι στο ευρύ κοινό. Αυτή η προσεκτική προσέγγιση αντικατοπτρίζει το στάδιο της τεχνολογίας. Επιπλέον, το μοντέλο αγωνίζεται με την ακριβή απόδοση κειμένου και δεν μπορεί ακόμη να προσομοιώσει σύνθετες αλληλεπιδράσεις μεταξύ πολλαπλών ανεξάρτητων παραγόντων, όπως περιγράφεται λεπτομερώς στην τεκμηρίωση του. Ο Fruchter αναγνώρισε τον δρόμο μπροστά, σημειώνοντας:”Υπάρχουν πολλά πράγματα που πρέπει να συμβούν πριν ένα μοντέλο μπορεί να αναπτυχθεί στον πραγματικό κόσμο, αλλά το βλέπουμε ως έναν τρόπο να εκπαιδεύσουμε πιο αποτελεσματικά τα μοντέλα και να αυξήσουμε την αξιοπιστία τους”. Αυτό υπογραμμίζει τον τρέχοντα ρόλο του μοντέλου ως ερευνητικού εργαλείου και όχι ως αναπτυσσόμενο προϊόν. Υπογραμμίζει τις τεράστιες τεχνικές προκλήσεις που παραμένουν στην οικοδόμηση AI που μπορούν πραγματικά να αντικατοπτρίζουν την πολυπλοκότητα του κόσμου μας.

Categories: IT Info