Η Meta κυκλοφόρησε το V-JEPA 2, ένα προηγμένο σύστημα AI που μαθαίνει από το βίντεο, σε μια στρατηγική ώθηση για να δώσει ρομπότ μια μορφή φυσικής κοινής λογικής. Η εταιρεία ανακοίνωσε στις 11 Ιουνίου ότι το”World Model”του ανοιχτού κώδικα έχει σχεδιαστεί για να κατανοεί και να προβλέπει αλληλεπιδράσεις πραγματικού κόσμου, ένα κρίσιμο βήμα προς την οικοδόμηση πιο ικανών και προσαρμοστικών ευφυών παραγόντων. Με την οικοδόμηση μιας εσωτερικής προσομοίωσης της πραγματικότητας, αυτά τα μοντέλα επιτρέπουν σε ένα AI να”σκεφτεί”πριν ενεργήσει, σχεδιάζοντας σύνθετα καθήκοντα με πιο ανθρώπινο τρόπο. Για το Meta, το έργο αποτελεί βασικό μέρος του μακροπρόθεσμου οράματός του για την προηγμένη νοημοσύνη μηχανής, με πιθανές εφαρμογές που κυμαίνονται από τη βιομηχανική ρομποτική έως τα γυαλιά επαυξημένης πραγματικότητας που η εταιρεία έχει αναπτύξει από καιρό. Μοντέλο αντιπροσωπεύει μια σημαντική εξέλιξη από τον προκάτοχό του V-Jepa. Ενώ αυτή η αρχική έκδοση καθιέρωσε την βασική έννοια της μάθησης από το βίντεο, αυτό το νέο σύστημα παραμέτρων 1,2 δισεκατομμυρίων ενισχύσεων ενισχύεται ειδικά για τον πρακτικό σχεδιασμό και τον έλεγχο, με στόχο τη γεφύρωση του χάσματος μεταξύ της ψηφιακής νοημοσύνης και του φυσικού κόσμου. Src=”Δεδομένα: Εικόνα/SVG+XML; Nitro-Empty-ID=MTY0MJO3NTG=-1, BASE64, PHN2ZYB2AWV3QM94PSIWIDAGOTYWIDI5 Mcigd2lkdgg9ijk2mcigagvpz2h0psiyotaiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Τι είναι τα μοντέλα του κόσμου; Σε αντίθεση με τα μεγάλα γλωσσικά μοντέλα που προβλέπουν την επόμενη λέξη σε μια πρόταση, τα παγκόσμια μοντέλα προσπαθούν να προβλέψουν τις μελλοντικές καταστάσεις του ίδιου του κόσμου. Ένα παγκόσμιο μοντέλο παρατηρεί το περιβάλλον του και αναμένει τι μπορεί να συμβεί στη συνέχεια, ένα πολύ πιο περίπλοκο έργο από την πρόβλεψη που βασίζεται σε κείμενο.
Αυτή η δυνατότητα επιτρέπει στα μηχανήματα να προσομοιώνουν πιθανές ενέργειες και τις συνέπειές τους εσωτερικά πριν τις επιχειρήσουν στην πραγματικότητα. Όπως ο Juan Bernabé-Moreno, διευθυντής της IBM Research στην Ευρώπη, εξήγησε ,”τα μοντέλα κόσμου επιτρέπουν τα μηχανήματα να σχεδιάσουν και να αλληλεπιδράσει σε αυτά τα δραματικά. μειώνει δαπανηρή δοκιμή και σφάλμα, μετριάζει τους κινδύνους ασφαλείας και επιταχύνει τη μάθηση για εργασίες όπως η βιομηχανική συναρμολόγηση, η εφοδιαστική αποθήκη ή η ρομποτική προσανατολισμένη στην υπηρεσία.
Η νοημοσύνη του V-Jepa 2 είναι σφυρηλατημένη σε μια διαδικασία κατάρτισης δύο σταδίων. Πρώτον, χτίζει μια θεμελιώδη κατανόηση του κόσμου αναλύοντας ένα τεράστιο σύνολο δεδομένων πάνω από ένα εκατομμύριο ώρες βίντεο και ένα εκατομμύριο εικόνες. Αυτή η απόδοση επιτρέπει στο μοντέλο να επικεντρώνεται στην εκμάθηση εννοιών υψηλού επιπέδου σχετικά με τις αλληλεπιδράσεις αντικειμένων και την κίνηση.
Το δεύτερο στάδιο κάνει το μοντέλο χρήσιμο για τη ρομποτική. Εδώ, είναι τελειοποιημένο με δεδομένα κλιματισμού δράσης, χρησιμοποιώντας μόλις 62 ώρες εισόδων βίντεο και ελέγχου από το drataset droid droid . Αυτό διδάσκει το μοντέλο να συνδέει συγκεκριμένες ενέργειες με τα φυσικά τους αποτελέσματα, με αποτέλεσμα ένα σύστημα που, σύμφωνα με το Meta, μπορεί να χρησιμοποιηθεί για το”μηδενικό ρομπότ ρομπότ για να αλληλεπιδράσει με άγνωστα αντικείμενα σε νέα περιβάλλοντα”.
Το πολυσύχναστο πεδίο της φυσικής νοημοσύνης
Η ανακοίνωση της Meta δεν συμβαίνει σε κενό. Η ώθηση για τη δημιουργία θεμελιωδών μοντέλων για τη ρομποτική είναι ένα βασικό πεδίο μάχης για τα μεγάλα εργαστήρια τεχνολογίας. Τον Μάρτιο η Google Deepmind παρουσίασε τα μοντέλα της ρομποτικής Gemini, τα οποία ενσωματώνουν ομοίως την όραση, τη γλώσσα και τη δράση για να επιτρέψουν στα ρομπότ να μάθουν με ελάχιστη εκπαίδευση.
Το διαθέσιμο στο github , με σημεία ελέγχου προσβάσιμο στην αγκαλιά προσώπου . Κάνοντας την τεχνολογία ευρέως διαθέσιμη, η Meta ελπίζει να προωθήσει μια κοινότητα που μπορεί να επιταχύνει την πρόοδο. Ωστόσο, οι προγραμματιστές που αναζητούν εύκολη ενσωμάτωση μπορεί να αντιμετωπίσουν εμπόδια, καθώς οι κοινοτικές συζητήσεις στο GitHub δείχνουν ότι υπάρχει σήμερα Δεν υπάρχει αφιερωμένη, φιλική προς το χρήστη api
Πόσο καλά μοντέλα AI λόγο για τη φυσική. Στην ανακοίνωσή του, η Meta σημείωσε ένα σημαντικό χάσμα απόδοσης μεταξύ των ανθρώπων και ακόμη και των κορυφαίων μοντέλων σε αυτά τα καθήκοντα, υπογραμμίζοντας μια σαφή κατεύθυνση για την απαραίτητη βελτίωση. Η μάθηση , παρέχοντας ένα διαφανές μέτρο για το πόσο κοντά είναι το πεδίο να επιτευχθεί η πραγματική φυσική νοημοσύνη. Ενώ το V-Jepa 2 είναι ένα σημαντικό βήμα, φωτίζει επίσης το μακρύ δρόμο προς τη δημιουργία του είδους της προηγμένης μηχανικής νοημοσύνης που μπορεί να πλοηγηθεί απρόσκοπτα και να αλληλεπιδράσει με τον πολύπλοκο φυσικό μας κόσμο.