NVIDIA hat auf der CES 2025 mehrere Fortschritte im Bereich KI angekündigt und neue Entwicklungen vorgestellt, die die bisherigen Erfolge des Unternehmens bei der Generierung synthetischer Daten mit seinem Fokus auf autonome Entscheidungsfindung verbinden.
Zu den neuen Versionen gehören die Cosmos World Foundation Model (WFM)-Plattform – ein umfangreiches Toolkit zum Erstellen fotorealistischer, physikbasierter Videos und Szenarien – und das Llama Nemotron plus Cosmos Nemotron-Familien, die Sprache ermöglichen, Vision und Entscheidungsfindungs-KI in verschiedenen Sektoren wie Robotik, Gesundheitswesen und autonomen Fahrzeugen.
Verwandt: Nvidia stellt Blackwell-GPUs der RTX 50-Serie mit DLSS 4 und Twice the vor Leistung der RTX 4090
„Wir haben Cosmos geschaffen, um physische KI zu demokratisieren und allgemeine Robotik für jeden Entwickler zugänglich zu machen“, sagte Jensen Huang, Gründer und CEO von NVIDIA. „KI-Agenten sind die nächste Roboterindustrie und wahrscheinlich eine milliardenschwere Chance.“
Durch die Kombination synthetischer Datengenerierung, Bildverarbeitung und fortschrittlicher Sprachmodelle unter einem Dach möchte NVIDIA den Übergang rationalisieren Datenerstellung für voll funktionsfähige KI-Systeme. Dieser Ansatz folgt dem Erfolg der Nemotron-4 340B-Serie, die zuvor den Mangel an hochwertigen Trainingsdaten für große Sprachmodelle (LLMs) behoben hat.
[eingebetteter Inhalt]
Nemotron-4 340B: Schaffung einer datengesteuerten Grundlage
Mitte 2024 stellte NVIDIA die Nemotron-4 340B-Modelle vor, um die begrenzte Datenverfügbarkeit für komplexe KI-Anwendungen zu bewältigen Modelle erzeugten synthetische Daten in großem Maßstab und ermöglichten eine hochgradige Verfeinerung und Anpassung für Branchen wie das Gesundheitswesen, das Finanzwesen und die Fertigung.
Nemotron-4 340B bot drei Varianten: Base, Instruct und Die Instruct-Modelle halfen Entwicklern, KI-Ausgaben durch klare Anweisungen zu steuern, während die Reward-Modelle die generierten Antworten anhand von Parametern wie Genauigkeit und Kohärenz bewerteten. Dieser iterative Feedback-Mechanismus erwies sich als wertvoll für das Training großer Sprachmodelle, beschleunigte die Entwicklung und verbesserte die Modellzuverlässigkeit.
Die Nemotron-4 340B-Initiative ließ sich auch nahtlos in die NeMo-Plattform und die TensorRT-LLM-Bibliothek von NVIDIA integrieren und bietet Benutzern Optimierungen und Flexibilität in ihren KI-Workflows. Die von Nemotron-4 340B generierten synthetischen Daten legten den Grundstein für NVIDIAs neueste Durchbrüche in der agentischen und physischen KI und vereinten Datenkuratierung, Modelltraining und Bereitstellungsanforderungen.
Llama Nemotron und Cosmos Nemotron: Expanding Agentische KI
NVIDIAs neueste Angebote in der Nemotron-Familie – Llama Nemotron und Cosmos Nemotron – gehen über das bloße hinaus Datengenerierung zur Unterstützung von Echtzeit-KI-Agenten. Llama Nemotron Large Language Models (LLMs) sind für Aufgaben wie Codierung, Funktionsaufrufe, Chat und mathematische Berechnungen zuständig, während Cosmos Nemotron Vision Language Models (VLMs) sich auf die Interpretation und Reaktion auf visuelle Daten in Videos, Bilder und Sensor-Feeds.
„Agentische KI ist der nächste Schritt.“ „Die Grenze der KI-Entwicklung liegt an der Spitze der KI-Entwicklung, und um diese Chance nutzen zu können, bedarf es einer Full-Stack-Optimierung über ein System von LLMs hinweg, um effiziente, präzise KI-Agenten bereitzustellen“, sagte Ahmad Al-Dahle, Vizepräsident und Leiter von GenAI bei Meta, in einer Erklärung. „Durch Dank unserer Zusammenarbeit mit Nvidia und unserem gemeinsamen Engagement für offene Modelle kann die auf Llama basierende Nvidia Llama Nemotron-Familie Unternehmen dabei helfen, schnell ihre eigenen benutzerdefinierten KI-Agenten zu erstellen.“
Nvidia Agentic AI-Architektur (Bild: Nvidia)
Dieser zweigleisige Ansatz umfasst spezielle NVIDIA NIM-Mikroservices, die ressourcenintensive Aufgaben wie Videosuche, Zusammenfassung und Sensorinterpretation übernehmen. Durch die Integration von Sprache und visueller Verarbeitung können KI-Agenten eine Reihe von Anwendungen verwalten, von der Lagerlogistik bis zur Analyse medizinischer Bildgebung.
Cosmos World Foundation-Modelle
Nebenbei Mit den Familien Llama Nemotron und Cosmos Nemotron hat NVIDIA das Cosmos World Foundation Model (WFM)-Plattform. Diese neue Plattform ist auf die Generierung fotorealistischer, physikbasierter Videos und Umgebungen für Robotik, autonome Fahrzeuge und allgemeine „physikalische KI“-Szenarien spezialisiert. Der Fokus auf realistische Simulationen senkt die Kosten, die mit dem Sammeln und Testen riesiger Mengen realer Daten verbunden sind.
„Der ChatGPT-Moment für die Robotik steht vor der Tür“, so Huang seine Eröffnungsrede auf der CES.
Entwickler können Cosmos WFMs verwenden, um maßgeschneiderte Szenarien zu erstellen und Komplexitäten wie verschneite Straßen für AV-Systeme oder überfüllte Lagerhallen für Robotiktests hinzuzufügen. Diese physikbewussten Datensätze können entweder bestehende Modelle verfeinern oder als eigenständige Trainingsressource dienen. Das Unternehmen hat diese Modelle unter einer offenen Modelllizenz zur Verfügung gestellt, um den Zugang zur fortschrittlichen KI-Entwicklung zu erweitern.
Beschleunigung der physischen KI durch Daten-und Recheneffizienz
Physische KI ist nach wie vor rechenintensiv und erfordert hochpräzise Daten, um die reale Welt zu simulieren. Cosmos begegnet diesen Herausforderungen, indem es eine beschleunigte Videoverarbeitungspipeline und fortschrittliche Video-Tokenizer (verfügbar unter der Open-Model-Lizenz von NVIDIA, über Hugging Face)> und GitHub) und die NVIDIA NeMo Curator für Datenkennzeichnung und Kuratierung.
Diese Pipeline zielt darauf ab, riesige Mengen an Videodaten zu verarbeiten – bis zu 20 Millionen Stunden in 14 Tagen mit der NVIDIA Blackwell-Plattform – und nicht jahrelange CPU-gebundene Vorgänge.
Diese Effizienzgewinne helfen Unternehmen, ihre KI-Modelle zu entwickeln, zu testen und zu verfeinern, ohne durch reale Datenbeschränkungen eingeschränkt zu sein. Cosmos Tokenizer komprimiert Bilder und Videos und reduziert so den Overhead, während gleichzeitig die wesentliche Qualität für das Training fortschrittlicher KI-Systeme erhalten bleibt. Laut NVIDIA ebnen diese Optimierungen den Weg für schnellere Iterationen in der Robotik-und autonomen Fahrzeugforschung.
Industry Adoption
Große Akteure in der Robotik und Automobiltechnologie haben dies getan zeigte großes Interesse an Cosmos. Unternehmen wie 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi und XPENG integrieren die neue Plattform in ihre Entwicklungspipelines.
XPENG plant beispielsweise, seine humanoide Robotik zu verbessern Initiativen, während der Mitfahrriese Uber mit NVIDIA zusammenarbeitet, um Cosmos für eine bessere Datenkuratierung und Szenariogenerierung zu nutzen. „Generative KI wird die Zukunft der Mobilität vorantreiben und erfordert sowohl umfangreiche Daten als auch sehr leistungsstarke Rechenleistung“, sagte Dara Khosrowshahi, CEO von Uber. „Durch die Zusammenarbeit mit NVIDIA sind wir zuversichtlich, dass wir dazu beitragen können, den Zeitplan für sicheres und skalierbares autonomes Fahren zu beschleunigen.“ Lösungen für die Branche.“
Unternehmen wie SAP und ServiceNow haben sich ebenfalls für die Nemotron-Familien von NVIDIA entschieden. „KI-Agenten, die zusammenarbeiten, um komplexe Aufgaben über mehrere Geschäftsbereiche hinweg zu lösen, werden ein völlig neues Maß an Unternehmensproduktivität ermöglichen, das über die heutigen generativen KI-Szenarien hinausgeht“, sagte Philipp Herzig, Chief AI Officer bei SAP, in einer Erklärung. „Durch Joule von SAP Hunderte Millionen Unternehmensbenutzer werden mit diesen Agenten interagieren, um ihre Ziele schneller als je zuvor zu erreichen.“
NeMo-Integration, offene Lizenzierung und Sicherheitsmaßnahmen
Alle Cosmos WFMs und Nemotron-Modelle sind mit dem NeMo-Framework von NVIDIA verbunden und ermöglichen so Feinabstimmung, Ausrichtung und Retrieval-Augmented Generation (RAG). Mit NeMo Curator können Entwickler umfangreiche Videodaten verarbeiten, während Reinforcement Learning aus menschlichem Feedback (RLHF) die Modelle verfeinert, um angemessene, kontextgesteuerte Antworten zu gewährleisten.
NVIDIA hat Cosmos unter einer offenen Modelllizenz veröffentlicht und fördert so die Zusammenarbeit und Anpassung innerhalb der Robotik-und AV-Community. Das Unternehmen wies auch auf Maßnahmen für eine sichere und verantwortungsvolle KI hin, darunter das Versehen von KI-generierten Inhalten mit Wasserzeichen, die Implementierung von Leitplanken zur Eindämmung schädlicher Texte oder Bilder und die Ausrichtung auf globale KI-Sicherheitsinitiativen.
„Wir sind zuversichtlich, dass wir helfen können.“ „Verkürzen Sie den Zeitplan für sichere und skalierbare autonome Fahrlösungen für die Branche“, fügte Khosrowshahi hinzu und unterstrich damit die wachsende Bedeutung vertrauenswürdiger, transparenter KI-Systeme.
Auf dem Weg zu einer einheitlichen Lösung KI-Ökosystem
Durch die Zusammenführung des synthetischen datengesteuerten Ansatzes von Nemotron-4 340B mit der neuen Cosmos WFM-Plattform schlägt NVIDIA einen einheitlichen Weg für KI vor, der Forschung, Unternehmenseinsatz und physische Prozesse umfasst Die Llama-Nemotron-und Cosmos-Nemotron-Familien spielen eine Schlüsselrolle in der Agenten-KI, während sich die Cosmos-WFMs mit den Komplexitäten der Robotik und der Entwicklung autonomer Fahrzeuge befassen.
Von der Ermöglichung kosteneffizienter Lösungen Von der Datengenerierung bis hin zum Angebot spezialisierter Microservices für Sprach-und Bildverarbeitungsaufgaben in Echtzeit ist das neueste Portfolio von NVIDIA ein Beispiel für eine vielseitige Strategie zur Weiterentwicklung der KI. Da immer mehr Unternehmen, Entwickler und Forscher diese Modelle übernehmen, scheint sich die Entwicklung autonomer Systeme und intelligenter Software-Agenten zu beschleunigen.