Google DeepMind a lancé une nouvelle initiative visant à créer des systèmes avancés d’intelligence artificielle (IA) capables de simuler des environnements physiques et virtuels.
Tim Brooks, ancien chercheur à OpenAI, dirige désormais cet effort, qui se concentre sur sur les « modèles du monde » – des systèmes d’IA conçus pour prédire et interagir avec la dynamique du monde réel. Dans un article sur X, Brooks a déclaré : « DeepMind a des projets ambitieux pour créer des modèles génératifs massifs qui simulent le monde. »
Ce projet est étroitement lié à la stratégie plus large de Google visant à faire progresser l’intelligence artificielle générale (AGI). Les modèles mondiaux sont considérés comme une étape fondamentale dans la réalisation de l’AGI, une forme d’IA capable d’effectuer n’importe quelle tâche intellectuelle qu’un humain peut réaliser.
La nouvelle équipe collaborera avec les projets DeepMind existants, y compris l’IA multimodale Gemini model, la plateforme de génération vidéo Veo, et Genie, un générateur d’environnement pour des simulations 3D interactives.
DeepMind a des projets ambitieux pour créer des modèles génératifs massifs qui simulent le monde. Je recrute pour une nouvelle équipe avec cette mission. Venez construire avec nous !https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— Tim Brooks (@_tim_brooks) 6 janvier 2025
Modélisation mondiale de l’IA
Les modèles mondiaux représentent un écart significatif par rapport aux systèmes d’IA traditionnels, qui réagissent principalement aux entrées de données. Au lieu de cela, ces modèles simulent des environnements complexes en analysant des données multimodales, telles que du texte, des images et des vidéos. Cette capacité prédictive permet des applications dans divers domaines, de la formation en robotique aux jeux interactifs.
Une description de poste pour la nouvelle équipe met en évidence les objectifs plus larges: « Nous pensons que la mise à l’échelle de la pré-formation sur la vidéo et les données multimodales est sur le chemin critique vers l’intelligence artificielle générale. Les modèles mondiaux alimenteront de nombreux domaines, tels que le raisonnement visuel et la simulation, la planification d’agents incarnés et le divertissement interactif en temps réel.”
En simulant la dynamique du monde réel, les modèles mondiaux fournissent un bac à sable virtuel pour tester et l’apprentissage, améliorant la capacité de l’IA à s’adapter et à réagir dans des scénarios du monde réel.
Le projet Genie de DeepMind offre un aperçu des possibilités Lancé en décembre, Genie 2 peut générer des éléments jouables. Des mondes 3D basés sur les invites des utilisateurs. Les démonstrations comprenaient une simulation d’expédition à la voile et un western sur le thème du cyberpunk, mettant en valeur la polyvalence de la plateforme dans la création d’environnements interactifs.
Démo interactive de simulation d’IA image par image créée avec Google Genie 2 (Source: Google)
Le travail sur les modèles mondiaux est intrinsèquement complexe, nécessitant une infrastructure de pointe et de vastes ressources informatiques. L’offre d’emploi de DeepMind pour un poste d’ingénieur de recherche en modélisation mondiale décrit les défis techniques impliqués. Les responsabilités incluent :
Former des transformateurs multimodaux à grande échelle capables d’analyser divers types de données. Créer une infrastructure pour les pipelines de données vidéo, garantissant une conservation et une annotation efficaces. Optimisation des systèmes d’inférence pour les applications en temps réel, permettant une interactivité transparente. Développer des mesures d’évaluation quantitatives pour mesurer la précision physique et l’intelligence. Explorer les transformateurs de contexte ultra-long, qui permettent à l’IA d’analyser des séquences étendues de données.
L’accent mis sur l’évolutivité reflète un engagement à rendre ces systèmes à la fois robustes et efficaces. La philosophie de DeepMind, résumée comme les principales responsabilités dans la description de poste, souligne cette approche :
“Mettre en œuvre une infrastructure de base et mener des recherches pour créer des modèles génératifs du monde physique. Résolvez des problèmes essentiels pour entraîner des simulateurs de monde à grande échelle, développez des métriques et des lois de mise à l’échelle pour l’intelligence physique, organisez et annotez les données de formation, activez la génération interactive en temps réel et étudiez l’intégration de modèles du monde avec des modèles de langage multimodal. Acceptez l’amère leçon et recherchez des méthodes simples et évolutives, en mettant l’accent sur des systèmes et des infrastructures solides.”
Applications et implications
Les modèles mondiaux ont diverses applications à travers Dans les industries robotiques, ils permettent la création d’environnements virtuels dans lesquels les machines peuvent apprendre à naviguer et à manipuler des objets, ce qui réduit le temps et le coût des tests physiques.
Genesis, une plateforme de simulation physique open source développée par. Université Carnegie Mellon et industrie privée chercheurs, montre comment les systèmes d’IA peuvent être entraînés à la physique 3D dans un environnement entièrement virtuel beaucoup plus rapidement que dans le monde réel.
Dans les jeux, les modèles du monde créent des expériences immersives avec des environnements dynamiques et réactifs. potentiel dans le domaine des soins de santé, où les simulations pourraient aider au diagnostic et à la planification de traitements personnalisés.
Malgré leurs promesses, ces progrès s’accompagnent de défis éthiques, notamment en ce qui concerne le déplacement des travailleurs. L’Animation Guild estime que plus de 100 000 emplois dans les secteurs du cinéma, de la télévision et de l’animation aux États-Unis pourraient être affectés par les technologies de l’IA d’ici 2026.
Des problèmes juridiques se posent également, car certains modèles mondiaux s’appuient sur des séquences de jeux vidéo sans licence pour leurs activités. entraînement. Bien que Google affirme que ses pratiques sont conformes aux conditions d’utilisation de YouTube, il n’a pas divulgué de sources de données spécifiques.
Concurrence dans l’espace de l’IA
Positions d’initiative de DeepMind Google dans une course compétitive avec d’autres acteurs majeurs. La nouvelle plate-forme Cosmos de Nvidia se concentre sur l’IA physique et la robotique, tandis que World Labs de Fei-Fei Li développe des modèles du monde à grande échelle dotés d’une intelligence spatiale pour applications diverses. Des startups comme Odyssey et Decart créent également progrès, contribuant au domaine croissant des simulations mondiales de l’IA.
L’accès de DeepMind à Gemini AI, Veo et Genie offre un avantage unique. En intégrant ces systèmes, l’équipe vise à créer une IA qui non seulement prédit les résultats, mais s’adapte également aux scénarios changeants en temps réel. Cette capacité peut être essentielle pour atteindre l’AGI, où l’adaptabilité et la généralisation sont essentielles.
La vision de DeepMind pour l’AGI
Alors que l’intelligence artificielle générale reste une solution lointaine mais réalisable Objectif, les modèles mondiaux constituent une étape cruciale sur cette voie. En simulant des environnements physiques et virtuels, ces modèles constituent une base pour les systèmes d’IA capables de raisonner, de planifier et d’interagir comme les humains.
La description de poste d’ingénieur de recherche capture l’essence de la vision de DeepMind : « Les modèles mondiaux alimenteront de nombreux domaines, tels que le raisonnement visuel et la simulation, la planification d’agents incarnés et le divertissement interactif en temps réel.”