Google DeepMind hat eine neue Initiative gestartet, um fortschrittliche Systeme der künstlichen Intelligenz (KI) zu entwickeln, die in der Lage sind, physische und virtuelle Umgebungen zu simulieren.
Tim Brooks, ein ehemaliger Forscher bei OpenAI, leitet jetzt die Initiative, die sich auf Folgendes konzentriert zu „Weltmodellen“ – KI-Systemen, die darauf ausgelegt sind, reale Dynamiken vorherzusagen und mit ihnen zu interagieren. In einem Beitrag auf X erklärte Brooks: „DeepMind hat ehrgeizige Pläne, massive generative Modelle zu erstellen, die die Welt simulieren.“
Dieses Projekt ist eng verbunden mit Googles umfassenderer Strategie zur Förderung der künstlichen allgemeinen Intelligenz (AGI). Weltmodelle gelten als grundlegender Schritt zur Verwirklichung von AGI, einer Form der KI, die in der Lage ist, jede intellektuelle Aufgabe auszuführen, die ein Mensch bewältigen kann.
Das neue Team wird mit bestehenden DeepMind-Projekten zusammenarbeiten, einschließlich der multimodalen KI von Gemini model, die Videogenerierungsplattform Veo und Genie, ein Umgebungsgenerator für interaktive 3D-Simulationen.
DeepMind hat ehrgeizige Pläne, riesige generative Modelle zu erstellen, die die Welt simulieren. Ich rekrutiere für ein neues Team mit dieser Mission. Bauen Sie mit uns!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
– Tim Brooks (@_tim_brooks) 6. Januar 2025
AI World Modelinging
Weltmodelle stellen eine deutliche Abkehr von traditionellen KI-Systemen dar, die hauptsächlich auf Dateneingaben reagieren. Stattdessen simulieren diese Modelle komplexe Umgebungen, indem sie multimodale Daten wie Texte, Bilder und Videos analysieren. Diese Vorhersagefähigkeit ermöglicht Anwendungen in verschiedenen Bereichen, vom Robotik-Training bis zum interaktiven Spielen.
Eine Stellenbeschreibung für das neue Team hebt die umfassenderen Ziele hervor: „Wir glauben, dass die Skalierung des Pre-Trainings auf Video-und multimodale Daten auf dem entscheidenden Weg zur künstlichen allgemeinen Intelligenz liegt.“ Weltmodelle werden zahlreiche Bereiche antreiben, wie zum Beispiel visuelles Denken und Simulation, Planung für verkörperte Agenten und interaktive Echtzeitunterhaltung.“
Durch die Simulation realer Dynamiken bieten Weltmodelle eine virtuelle Sandbox zum Testen und Lernen und die Fähigkeit der KI verbessern, sich in realen Szenarien anzupassen und zu reagieren.
Das Genie-Projekt von DeepMind bietet einen Einblick in die Möglichkeiten. Genie 2 wurde im Dezember gestartet und kann spielbare 3D-Welten basierend auf dem Benutzer generieren Zu den Vorführungen gehörten eine Segelexpeditionssimulation und ein Cyberpunk-Western, die die Vielseitigkeit der Plattform bei der Erstellung interaktiver Umgebungen demonstrierten.
Interaktive Frame-by-Frame-KI-Simulationsdemo erstellt mit Google Genie 2 (Quelle: Google)
Die Arbeit an Weltmodelle sind von Natur aus komplex und erfordern eine hochmoderne Infrastruktur und enorme Rechenressourcen. Das Stellenangebot von DeepMind für eine Position als Forschungsingenieur in der Weltmodellierung beschreibt die damit verbundenen technischen Herausforderungen. Zu den Aufgaben gehören:
Training groß angelegter multimodaler Transformatoren, die in der Lage sind, verschiedene Datentypen zu analysieren. Aufbau einer Infrastruktur für Videodaten-Pipelines, um eine effiziente Kuratierung und Kommentierung sicherzustellen. Optimierung von Inferenzsystemen für Echtzeitanwendungen, die eine nahtlose Interaktivität ermöglichen. Entwicklung quantitativer Bewertungsmetriken zur Messung körperlicher Genauigkeit und Intelligenz. Erforschung von Ultra-Long-Context-Transformatoren, die es KI ermöglichen, längere Datensequenzen zu analysieren.
Die Betonung der Skalierung spiegelt die Verpflichtung wider, diese Systeme sowohl robust als auch effizient zu machen. Die Philosophie von DeepMind, die in der Stellenbeschreibung als Hauptaufgaben zusammengefasst ist, unterstreicht diesen Ansatz:
„Implementieren Sie die Kerninfrastruktur und führen Sie Forschung durch, um generative Modelle der physischen Welt zu erstellen.“ Lösen Sie wesentliche Probleme, um Weltsimulatoren in großem Maßstab zu trainieren, entwickeln Sie Metriken und Skalierungsgesetze für die physische Intelligenz, kuratieren und kommentieren Sie Trainingsdaten, ermöglichen Sie die interaktive Generierung in Echtzeit und untersuchen Sie die Integration von Weltmodellen mit multimodalen Sprachmodellen. Nehmen Sie die bittere Lektion an und suchen Sie nach einfachen, skalierbaren Methoden mit Schwerpunkt auf starken Systemen und Infrastruktur In der Robotik ermöglichen sie die Schaffung virtueller Umgebungen, in denen Maschinen lernen können, Objekte zu navigieren und zu manipulieren.
Genesis, eine Open-Source-Physiksimulationsplattform Carnegie Mellon University und Forscher aus der Privatwirtschaft, zeigt, wie KI-Systeme in einer vollständig virtuellen Umgebung viel schneller auf 3D-Physik trainiert werden können als in der realen Welt.
Im Gaming schaffen Weltmodelle immersive Erlebnisse mit dynamischen, reaktionsfähigen Umgebungen. Die Technologie hat auch Potenzial Gesundheitswesen, wo Simulationen bei der Diagnose und personalisierten Behandlungsplanung helfen könnten.
Obwohl diese Fortschritte vielversprechend sind, drohen ethische Bedenken, insbesondere im Hinblick auf die Vertreibung von Arbeitnehmern. Die Animation Guild schätzt, dass bis 2026 über 100.000 Arbeitsplätze in den Bereichen Film, Fernsehen und Animation in den USA von KI-Technologien betroffen sein könnten.
Es treten auch rechtliche Probleme auf, da einige Weltmodels auf nicht lizenziertes Videospielmaterial angewiesen sind Ausbildung. Google behauptet zwar, dass seine Praktiken den Nutzungsbedingungen von YouTube entsprechen, hat jedoch keine spezifischen Datenquellen offengelegt.
Wettbewerb im KI-Bereich
DeepMinds Initiativenpositionen Google liefert sich einen Wettlauf mit anderen großen Playern. Nvidias neue Cosmos-Plattform konzentriert sich auf physische KI und Robotik, währendFei-Fei Lis World Labs groß angelegte Weltmodelle mit räumlicher Intelligenz entwickelt vielfältige Anwendungen. Startups wie Odyssey und Decart machen ebenfalls Fortschritte macht Fortschritte und trägt zum wachsenden Bereich der KI-Weltsimulationen bei.
DeepMinds Zugriff auf Gemini AI, Veo und Genie bietet einen einzigartigen Vorteil. Durch die Integration dieser Systeme möchte das Team eine KI schaffen, die nicht nur Ergebnisse vorhersagt, sondern sich auch in Echtzeit an sich ändernde Szenarien anpasst. Diese Fähigkeit kann entscheidend für die Erreichung von AGI sein, bei der Anpassungsfähigkeit und Generalisierung von entscheidender Bedeutung sind.
DeepMinds Vision für AGI
Während künstliche allgemeine Intelligenz in weiter Ferne liegt, aber erreichbar ist Ziel sind Weltmodelle ein entscheidender Schritt auf diesem Weg. Durch die Simulation physischer und virtueller Umgebungen bilden diese Modelle eine Grundlage für KI-Systeme, die wie Menschen denken, planen und interagieren können.
Die Stellenbeschreibung des Forschungsingenieurs bringt den Kern der Vision von DeepMind auf den Punkt: „Weltmodelle werden Macht haben Zahlreiche Bereiche wie visuelles Denken und Simulation, Planung für verkörperte Agenten und interaktive Echtzeitunterhaltung.“