NVIDIA a annoncé plusieurs avancées en matière d’IA au CES 2025, dévoilant de nouveaux développements qui fusionnent les succès précédents de l’entreprise en matière de génération de données synthétiques avec l’accent mis sur la prise de décision autonome.
Les nouvelles versions incluent le Plateforme Cosmos World Foundation Model (WFM) : une boîte à outils complète pour créer des objets photoréalistes basés sur la physique. des vidéos et des scénarios, ainsi que le Llama Nemotron plus les familles Cosmos Nemotron, qui permettent le langage, la vision et l’IA de prise de décision dans divers secteurs tels que la robotique, la santé et les véhicules autonomes.
Connexe : Nvidia dévoile les GPU RTX 50-Series Blackwell avec DLSS 4 et deux fois la puissance du RTX 4090
“Nous avons créé Cosmos pour démocratiser l’IA physique et mettre la robotique générale à la portée de chaque développeur”, a déclaré Jensen Huang, fondateur et PDG de NVIDIA.”Les agents IA sont la prochaine industrie robotique et représenteront probablement une opportunité de plusieurs milliards de dollars.”
En combinant la génération de données synthétiques, le traitement de la vision et les modèles de langage avancés sous un même toit, NVIDIA aspire à rationaliser la transition de création de données pour des systèmes d’IA pleinement opérationnels. Cette approche fait suite au succès de la série Nemotron-4 340B, qui traitait auparavant du manque de données de formation de haute qualité pour les grands modèles de langage (LLM).
[contenu intégré]
Nemotron-4 340B : établir une base basée sur les données
À la mi-2024, NVIDIA a présenté les modèles Nemotron-4 340B pour remédier à la disponibilité limitée des données pour les applications d’IA complexes. les modèles ont produit des données synthétiques à grande échelle, permettant un raffinement et une adaptation de haut niveau pour des secteurs tels que la santé, la finance et la fabrication.
Le Nemotron-4 340B proposait trois variantes : Base, Instruct, et Reward. Les modèles Instruct ont aidé les développeurs à guider les résultats de l’IA à travers des directives claires, tandis que les modèles Reward ont noté les réponses générées en fonction de paramètres tels que l’exactitude et la cohérence. Ce mécanisme de retour d’information itératif s’est avéré utile pour entraîner de grands modèles de langage, accélérant le développement et améliorant la fiabilité des modèles.
L’initiative Nemotron-4 340B s’est également intégrée de manière transparente à la plate-forme NeMo de NVIDIA et à la bibliothèque TensorRT-LLM, offrant aux utilisateurs une optimisation et la flexibilité dans leurs flux de travail d’IA. Les données synthétiques générées par le Nemotron-4 340B ont jeté les bases des dernières avancées de NVIDIA en matière d’IA agentique et physique, comblant les besoins de conservation des données, de formation des modèles et de déploiement.
Llama Nemotron et Cosmos Nemotron : expansion IA agentique
Les dernières offres de NVIDIA dans la famille Nemotron (Llama Nemotron et Cosmos Nemotron) vont au-delà de la simple génération de données pour alimenter les agents d’IA en temps réel. Les grands modèles de langage (LLM) de Llama Nemotron répondent à des tâches telles que le codage, les appels de fonctions, le chat et les calculs mathématiques, tandis que les modèles de langage de vision (VLM) de Cosmos Nemotron se concentrent sur l’interprétation et la réponse aux données visuelles dans vidéos, images et flux de capteurs.
« L’IA agentique est prochaine frontière du développement de l’IA, et saisir cette opportunité nécessite une optimisation complète à travers un système de LLM pour fournir des agents d’IA efficaces et précis », a déclaré Ahmad Al-Dahle, vice-président et responsable de GenAI chez Meta, dans un communiqué. Grâce à notre collaboration avec Nvidia et à notre engagement commun en faveur des modèles ouverts, la famille Nvidia Llama Nemotron construite sur Llama peut aider les entreprises à créer rapidement leurs propres agents d’IA personnalisés.”
Architecture d’IA agentique Nvidia (Image : Nvidia)
Cette approche à deux volets intègre des Microservices NVIDIA NIM qui gèrent des tâches gourmandes en ressources telles que la recherche vidéo, la synthèse et l’interprétation des capteurs. En intégrant le langage et le traitement visuel, les agents IA peuvent gérer une gamme d’applications, de la logistique d’entrepôt à l’analyse d’imagerie médicale.
Modèles Cosmos World Foundation
En plus les familles Llama Nemotron et Cosmos Nemotron, NVIDIA a lancé le Plateforme Cosmos World Foundation Model (WFM). Cette nouvelle plate-forme est spécialisée dans la génération de vidéos et d’environnements photoréalistes basés sur la physique pour la robotique, les véhicules autonomes et les scénarios généraux d’« IA physique ». L’accent mis sur des simulations réalistes réduit les coûts associés à la collecte et au test de quantités massives de données du monde réel./p>
« Le moment ChatGPT pour la robotique arrive. À l’instar des grands modèles de langage, les modèles de fondation mondiaux sont fondamentaux pour faire progresser le développement des robots et de l’audiovisuel, mais tous les développeurs n’ont pas l’expertise et les ressources nécessaires pour former les leurs », a noté Huang dans son discours d’ouverture à CES.
Les développeurs peuvent utiliser les WFM Cosmos pour créer des scénarios sur mesure, ajoutant des complexités telles que des routes enneigées pour les systèmes audiovisuels ou des sols d’entrepôt encombrés pour les tests robotiques. Ces ensembles de données physiques peuvent soit affiner les modèles existants, soit servir de ressource de formation autonome. La société a rendu ces modèles disponibles sous licence de modèle ouvert, dans le but d’élargir l’accès au développement avancé de l’IA.
Accélérer l’IA physique grâce à l’efficacité des données et du calcul
L’IA physique reste exigeante en termes de calcul, nécessitant des données haute fidélité pour simuler le monde réel. Cosmos relève ces défis en proposant un pipeline de traitement vidéo accéléré et des tokeniseurs vidéo avancés (disponibles sous la licence de modèle ouvert de NVIDIA, via Hugging Face et GitHub), et le NVIDIA NeMo Curator pour l’étiquetage et la conservation des données.
Ce pipeline vise à traiter de grandes quantités de données vidéo (jusqu’à 20 millions d’heures en 14 jours en utilisant la plate-forme NVIDIA Blackwell) plutôt que des années d’opérations liées au processeur.
Ces gains d’efficacité aident les organisations qui cherchent à développer, tester et affiner leurs modèles d’IA sans être limitées par les contraintes de données du monde réel. Cosmos Tokenizer compresse les images et les vidéos, réduisant ainsi les frais généraux tout en préservant la qualité essentielle pour la formation des systèmes d’IA avancés. Selon NVIDIA, ces optimisations ouvrent la voie à une itération plus rapide dans la recherche sur la robotique et les véhicules autonomes.
Adoption par l’industrie
Les principaux acteurs de la robotique et de la technologie automobile ont a montré un vif intérêt pour Cosmos. Des entreprises telles que 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi et XPENG font partie de celles qui intègrent la nouvelle plateforme dans leurs pipelines de développement.
Par exemple, XPENG prévoit d’améliorer sa robotique humanoïde. initiatives, tandis que le géant du covoiturage Uber collabore avec NVIDIA pour exploiter Cosmos afin d’améliorer la conservation des données et la génération de scénarios. « L’IA générative alimentera l’avenir de la mobilité, nécessitant à la fois des données riches et un calcul très puissant », a déclaré Dara Khosrowshahi, PDG d’Uber. « En travaillant avec NVIDIA, nous sommes convaincus que nous pouvons contribuer à accélérer le calendrier d’une conduite autonome sûre et évolutive. solutions pour l’industrie.”
Des sociétés comme SAP et ServiceNow ont également adopté les familles Nemotron de NVIDIA.”Les agents d’IA qui collaborent pour résoudre des tâches complexes dans plusieurs secteurs d’activité débloqueront un tout nouveau niveau de productivité d’entreprise au-delà des scénarios d’IA générative d’aujourd’hui”, a déclaré Philipp Herzig, directeur de l’IA chez SAP, dans un communiqué.”Grâce à Joule de SAP, des centaines de millions d’utilisateurs en entreprise interagiront avec ces agents pour atteindre leurs objectifs plus rapidement que jamais.”
Intégration NeMo, licences ouvertes et mesures de sécurité
Tous Les modèles Cosmos WFM et Nemotron s’interfacent avec le framework NeMo de NVIDIA, permettant un réglage précis, l’alignement et la génération augmentée par récupération (RAG). Grâce à NeMo Curator, les développeurs peuvent traiter des données vidéo à grande échelle, tandis que l’apprentissage par renforcement à partir des commentaires humains (RLHF) affine les modèles pour maintenir des réponses appropriées et basées sur le contexte.
NVIDIA a publié Cosmos sous une licence de modèle ouvert, encourageant la collaboration et la personnalisation au sein de la communauté robotique et audiovisuelle. L’entreprise a également noté des mesures pour une IA sûre et responsable, notamment le filigrane du contenu généré par l’IA, la mise en œuvre de garde-fous pour atténuer les textes ou les images nuisibles et l’alignement sur les initiatives mondiales en matière de sécurité de l’IA.
“Nous sommes convaincus que nous pouvons vous aider. accélérer le calendrier des solutions de conduite autonome sûres et évolutives pour l’industrie”, a ajouté Khosrowshahi, soulignant l’accent croissant mis sur des systèmes d’IA fiables et transparents.
Vers une IA unifiée. Écosystème
En fusionnant l’approche basée sur les données synthétiques du Nemotron-4 340B avec la nouvelle plate-forme Cosmos WFM, NVIDIA ouvre une voie unifiée pour l’IA qui couvre la recherche, le déploiement en entreprise et l’automatisation physique. Les familles Llama Nemotron et Cosmos Nemotron remplissent des rôles clés dans l’IA agentique, tandis que les WFM Cosmos abordent les complexités de la robotique et du développement de véhicules autonomes.
De la génération de données rentable à l’offre spécialisée. microservices pour les tâches de langage et de vision en temps réel, le dernier portefeuille de NVIDIA illustre une stratégie polyvalente pour l’avancement de l’IA. À mesure que de plus en plus d’entreprises, de développeurs et de chercheurs adoptent ces modèles, la trajectoire des systèmes autonomes et des agents logiciels intelligents semble prête à s’accélérer.