Meta a publié V-Jepa 2, un système d’IA avancé qui apprend de la vidéo, dans une poussée stratégique pour donner aux robots une forme de bon sens physique. La société a annoncé le 11 juin que le «modèle mondial» open-source est conçu pour comprendre et prédire les interactions du monde réel, une étape critique vers la construction d’agents intelligents plus compétents et adaptatifs.
Cette décision positionne les méta directement contre les rivaux comme Google et d’autres laboratoires spécialisés dans la course de plus en plus compétitive pour créer une AI incarnée. En créant une simulation interne de la réalité, ces modèles permettent à une IA de «penser» avant qu’elle n’agisse, planifiant des tâches complexes d’une manière plus humaine. Pour Meta, le projet est un élément clé de sa vision à long terme de l’intelligence avancée de la machine, avec des applications potentielles allant de la robotique industrielle aux lunettes de réalité augmentées que la société a développé depuis longtemps.
Que sont les modèles mondiaux?
Au cœur de la stratégie de Meta est le concept d’un «modèle mondial», un type de système d’IA génératif qui apprend les représentations internes d’un environnement, y compris sa physique et sa dynamique spatiale. Contrairement aux grands modèles de langue qui prédisent le mot suivant d’une phrase, les modèles mondiaux tentent de prédire les futurs états du monde lui-même. Un modèle mondial observe son environnement et prévoit ce qui pourrait arriver ensuite, une tâche beaucoup plus complexe que la prédiction textuelle.
Cette capacité permet aux machines de simuler des actions potentielles et leurs conséquences en interne avant de les tenter en réalité. En tant que Juan Bernabé-Moreno, directeur d’IBM Research en Europe, a expliqué ,”Les modèles mondiaux permettent aux machines de planifier les mouvements et les interactions dans des espaces simulées, souvent appelés”Twins numériques,”Avant d’aider à des mouvements dans le monde dans le monde. réduit considérablement des essais et des erreurs coûteux, atténue les risques de sécurité et accélère l’apprentissage pour des tâches telles que l’assemblée industrielle, la logistique des entrepôts ou la robotique orientée services.”
Cela accélère considérablement l’apprentissage et améliore la sécurité, en ouvrant le chemin pour les robots qui peuvent naviguer dans les environnements humains imprévisibles. Apprend
L’intelligence de V-Jepa 2 est forgée dans un processus de formation en deux étapes. Premièrement, il renforce une compréhension fondamentale du monde en analysant un ensemble de données massif de plus d’un million d’heures de vidéo et d’un million d’images.
Son architecture, connue sous le nom d’architecture prédictive de l’intégration conjointe (JEPA), apprend en prédisant les portions manquantes ou masquées de vidéo dans un espace abstrait et conceptuel plutôt que d’essayer de reconstruire tous les pixes. Cette efficacité permet au modèle de se concentrer sur l’apprentissage des concepts de haut niveau sur les interactions et le mouvement des objets.
La deuxième étape rend le modèle utile pour la robotique. Ici, il est affiné avec des données conditionnées par l’action, en utilisant seulement 62 heures d’entrées vidéo et de contrôle de la DataSet Droid Open-Source . Cela apprend au modèle à connecter des actions spécifiques à leurs résultats physiques, ce qui entraîne un système qui, selon Meta, peut être utilisé pour «la planification de robots zéro-tir pour interagir avec des objets inconnus dans de nouveaux environnements».
Cependant, un L’analyse technique de la première capacité V-Jepa
Un champ bondé de l’intelligence physique
L’annonce de Meta ne se produit pas dans le vide. La poussée pour créer des modèles fondamentaux pour la robotique est un champ de bataille clé pour les principaux laboratoires technologiques. En mars, Google Deepmind a dévoilé ses modèles de robotique Gemini, qui intègrent également la vision, la langue et l’action pour permettre aux robots d’apprendre avec une formation minimale.
le
Une technologie complémentaire critique est une simulation hyper-réaliste. Des plates-formes comme le simulateur Genesis AI peuvent simuler rapidement des environnements physiques qui sont essentiels pour entraîner ces modèles en toute sécurité et efficacement. Jim Fan, un chercheur impliqué dans le projet, a décrit de manière vivante sa puissance:”Une heure de temps de calcul donne un robot 10 ans d’expérience d’entraînement. C’est comment Neo a pu apprendre les arts martiaux en un clin d’œil d’un œil dans le Matrix Dojo.”Cela met en évidence l’accent mis sur l’industrie sur la surmonter le goulot d’étranglement des données requis pour former l’IA pour les variations quasi infinines du monde physique. Fidèle à sa stratégie récente dans AI, META est en train de libérer le V-Jepa 2 et ses outils associés comme des atouts open. Le code du modèle est disponible sur github , avec des points de contrôle accessible sur le visage étreint . En rendant la technologie largement disponible, Meta espère favoriser une communauté qui peut accélérer les progrès. Cependant, les développeurs à la recherche d’une intégration facile peuvent faire face à des obstacles, car les discussions communautaires sur github indiquent qu’il y a actuellement Pas de recherche inférieure, utilisateur, API . Testez rigoureusement dans quelle mesure les modèles d’IA sont bien des raisons de la physique. Dans son annonce, Meta a noté un écart de performance significatif entre les humains et même les modèles de top sur ces tâches, mettant en évidence une direction claire pour l’amélioration nécessaire. Les progrès contre ces références peuvent être suivis sur un , fournissant une mesure transparente de la proximité du domaine pour réaliser une véritable intelligence physique. La stratégie ouverte de Meta, combinée à l’informatique publique des limites de ses modèles, souligne l’immense difficulté de la tâche à venir. Bien que V-Jepa 2 soit une étape importante, il éclaire également la longue route vers la création du type d’intelligence avancée de la machine qui peut naviguer de manière transparente et interagir avec notre monde physique complexe. Une approche ouverte d’un problème dur