Google DeepMind is een nieuw initiatief gestart om geavanceerde kunstmatige intelligentie (AI)-systemen te creëren die fysieke en virtuele omgevingen kunnen simuleren.
Tim Brooks, een voormalig onderzoeker bij OpenAI, leidt nu de inspanning, die zich richt op over “wereldmodellen” – AI-systemen die zijn ontworpen om de dynamiek in de echte wereld te voorspellen en ermee te communiceren. In een bericht op X verklaarde Brooks: “DeepMind heeft ambitieuze plannen om enorme generatieve modellen te maken die de wereld simuleren.”
Dit project is nauw met elkaar verbonden aan de bredere strategie van Google om kunstmatige algemene intelligentie (AGI) te bevorderen. Wereldmodellen worden gezien als een fundamentele stap in het bereiken van AGI, een vorm van AI die elke intellectuele taak kan uitvoeren die een mens kan uitvoeren.
Het nieuwe team zal samenwerken met bestaande DeepMind-projecten, waaronder de Gemini multimodale AI model, het Veo-videogeneratieplatform en Genie, een omgevingsgenerator voor interactieve 3D-simulaties.
DeepMind heeft ambitieuze plannen om enorme generatieve modellen te maken die de wereld simuleren. Ik neem voor deze missie een nieuw team aan. Kom met ons bouwen!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— Tim Brooks (@_tim_brooks) 6 januari 2025
AI World Modeling
Wereldmodellen wijken aanzienlijk af van traditionele AI-systemen, die voornamelijk reageren op gegevensinvoer. In plaats daarvan simuleren deze modellen complexe omgevingen door multimodale gegevens, zoals tekst, afbeeldingen en video’s, te analyseren. Deze voorspellende mogelijkheid maakt toepassingen op verschillende gebieden mogelijk, van robotica-training tot interactief gamen.
Een taakomschrijving
a> voor het nieuwe team benadrukt de bredere doelstellingen: “Wij geloven dat het opschalen van voortraining op video en multimodale data op de cruciale weg is naar kunstmatige algemene intelligentie. Wereldmodellen zullen talloze domeinen aandrijven, zoals visueel redeneren en simuleren, plannen voor belichaamde agenten en realtime interactief entertainment.”
Door de dynamiek in de echte wereld te simuleren, bieden wereldmodellen een virtuele sandbox voor testen en leren, waardoor het vermogen van AI om zich aan te passen en te reageren in scenario’s uit de echte wereld wordt vergroot.
Het Genie-project van DeepMind biedt een kijkje in de mogelijkheden. Genie 2, gelanceerd in december, kan speelbare 3D-werelden genereren op basis van de gebruiker Demonstraties omvatten een simulatie van een zeilexpeditie en een western met cyberpunkthema, waarin de veelzijdigheid van het platform bij het creëren van interactieve omgevingen werd gedemonstreerd.
Interactieve frame-voor-frame AI-simulatiedemo gemaakt met Google Genie 2 (Bron: Google)
Het werk aan wereldmodellen is inherent complex en vereist geavanceerde infrastructuur en uitgebreide computerbronnen. DeepMind’s baanaanbod voor een rol als onderzoeksingenieur in wereldmodellering schetst de technische uitdagingen die daarmee gepaard gaan. De verantwoordelijkheden omvatten:
Het trainen van grootschalige multimodale transformatoren die in staat zijn diverse gegevenstypen te analyseren. Het bouwen van een infrastructuur voor pijplijnen voor videogegevens, waardoor efficiënt beheer en annotatie wordt gegarandeerd. Het optimaliseren van inferentiesystemen voor realtime toepassingen, waardoor naadloze interactiviteit mogelijk wordt. Het ontwikkelen van kwantitatieve evaluatiestatistieken om de fysieke nauwkeurigheid en intelligentie te meten. Het verkennen van transformatoren met ultralange context, waarmee AI uitgebreide gegevensreeksen kan analyseren.
De nadruk op schaalbaarheid weerspiegelt de toewijding om deze systemen zowel robuust als efficiënt te maken. De filosofie van DeepMind, samengevat als de belangrijkste verantwoordelijkheden in de functiebeschrijving, onderstreept deze aanpak:
“Implementeer de kerninfrastructuur en voer onderzoek uit om generatieve modellen van de fysieke wereld te bouwen. Los essentiële problemen op om wereldsimulators op grote schaal te trainen, ontwikkel statistieken en schaalwetten voor fysieke intelligentie, beheer en annoteer trainingsgegevens, maak realtime interactieve generatie mogelijk en bestudeer de integratie van wereldmodellen met multimodale taalmodellen. Omarm de bittere les en zoek naar eenvoudige schaalbare methoden, met de nadruk op sterke systemen en infrastructuur.”
Toepassingen en implicaties
Wereldmodellen hebben uiteenlopende toepassingen In de robotica maken ze de creatie van virtuele omgevingen mogelijk waarin machines kunnen leren navigeren en objecten kunnen manipuleren. Dit vermindert de tijd en kosten van fysieke tests.
Genesis, een open-source natuurkundig simulatieplatform ontwikkeld door Carnegie Mellon University en onderzoekers uit de particuliere sector, laat zien hoe AI-systemen veel sneller kunnen worden getraind voor 3D-fysica in een volledig virtuele omgeving dan in de echte wereld.
In gaming creëren wereldmodellen meeslepende ervaringen met dynamische, responsieve omgevingen gezondheidszorg, waar simulaties kunnen helpen bij diagnostiek en gepersonaliseerde behandelingsplanning.
Ondanks hun belofte brengen deze ontwikkelingen ethische problemen met zich mee, vooral met betrekking tot de verplaatsing van werknemers. De Animation Guild schat dat in 2026 meer dan 100.000 Amerikaanse banen in film, televisie en animatie door AI-technologieën kunnen worden beïnvloed.
Er doen zich ook juridische problemen voor, omdat sommige wereldmodellen afhankelijk zijn van videogamemateriaal zonder licentie opleiding. Hoewel Google beweert dat zijn praktijken in overeenstemming zijn met de servicevoorwaarden van YouTube, heeft het geen specifieke gegevensbronnen openbaar gemaakt.
Concurrentie op het gebied van AI
De initiatiefposities van DeepMind Google in een competitieve race met andere grote spelers. Nvidia’s nieuwe Cosmos-platform richt zich op fysieke AI en robotica, terwijl Fei-Fei Li’s World Labs grootschalige wereldmodellen ontwikkelt met ruimtelijke intelligentie voor uiteenlopende toepassingen. Startups als Odyssey en Decart maken ook stappen vooruit, wat bijdraagt aan het groeiende veld van AI-wereldsimulaties.
De toegang van DeepMind tot Gemini AI, Veo en Genie biedt een uniek voordeel. Door deze systemen te integreren wil het team AI creëren die niet alleen de uitkomsten voorspelt, maar zich ook in realtime aanpast aan veranderende scenario’s. Deze mogelijkheid kan van cruciaal belang zijn voor het bereiken van AGI, waarbij aanpassingsvermogen en generalisatie van cruciaal belang zijn.
DeepMind’s visie op AGI
Terwijl kunstmatige algemene intelligentie een afstandelijk maar haalbaar gebied blijft doel zijn wereldmodellen een cruciale stap op dit pad. Door fysieke en virtuele omgevingen te simuleren, bieden deze modellen een basis voor AI-systemen die kunnen redeneren, plannen en communiceren zoals mensen.
De functieomschrijving van Research Engineer geeft de essentie weer van de visie van DeepMind: “Wereldmodellen zullen kracht geven talrijke domeinen, zoals visueel redeneren en simuleren, plannen voor belichaamde agenten en realtime interactief entertainment.”