Google DeepMind har startat ett nytt initiativ för att skapa avancerade artificiell intelligens (AI)-system som kan simulera fysiska och virtuella miljöer.

Tim Brooks, tidigare forskare vid OpenAI, leder nu arbetet, som fokuserar på”världsmodeller”– AI-system utformade för att förutsäga och interagera med verklig dynamik. I ett inlägg på X sa Brooks:”DeepMind har ambitiösa planer att göra massiva generativa modeller som simulerar världen.”

Detta projekt är nära kopplat till Googles större strategi för att främja artificiell allmän intelligens (AGI). Världsmodeller ses som ett grundläggande steg för att uppnå AGI, en form av AI som kan utföra alla intellektuella uppgifter som en människa kan.

Det nya teamet kommer att samarbeta med befintliga DeepMind-projekt, inklusive Gemini multimodal AI modell, Veo-videogenereringsplattformen och Genie, en miljögenerator för interaktiva 3D-simuleringar.

DeepMind har ambitiösa planer på att göra massiva generativa modeller som simulerar världen. Jag anställer för ett nytt team med detta uppdrag. Kom och bygg med oss!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl

— Tim Brooks (@_tim_brooks) 6 januari 2025

AI World Modeling

Världsmodeller utgör en betydande avvikelse från traditionella AI-system, som främst reagerar till dataingångar. Istället simulerar dessa modeller komplexa miljöer genom att analysera multimodala data, såsom text, bilder och videor. Denna förutsägande förmåga möjliggör tillämpningar inom olika områden, från robotträning till interaktivt spel.

En jobbbeskrivning

a> för det nya teamet lyfter fram de bredare målen:”Vi tror att skalning av förträning på video och multimodal data är den kritiska vägen till artificiell allmän intelligens. Världsmodeller kommer att driva många domäner, såsom visuella resonemang och simulering, planering för förkroppsligade agenter och interaktiv underhållning i realtid.”

Genom att simulera verklig dynamik tillhandahåller världsmodeller en virtuell sandlåda för testning och lära sig, förbättra AI:s förmåga att anpassa sig och reagera i verkliga scenarier.

DeepMinds Genie-projekt ger en inblick i möjligheterna. Genie 2 lanserades i december och kan generera spelbara 3D-världar baserat på användaruppmaningar. Demonstrationer inkluderade en simulering av en seglingsexpedition och en västern med cyberpunk-tema, som visar upp plattformens mångsidighet när det gäller att skapa interaktiva miljöer.

Interaktiv frame-by-frame AI-simuleringsdemo skapad med Google Genie 2 (Källa: Google)

Arbetet om världsmodeller är till sin natur komplex, kräver banbrytande infrastruktur och stora beräkningsresurser DeepMinds jobberbjudande för en forskningsingenjörsroll inom världsmodellering beskriver de tekniska utmaningarna. Ansvaret inkluderar:

Utbildning av storskaliga multimodala transformatorer som kan analysera olika datatyper. Bygga infrastruktur för videodatapipelines, vilket säkerställer effektiv kurering och anteckningar. Optimera slutledningssystem för realtidsapplikationer, vilket möjliggör sömlös interaktivitet. Utveckla kvantitativa utvärderingsmått för att mäta fysisk noggrannhet och intelligens. Utforskar transformatorer med ultralång kontext, som gör att AI kan analysera utökade datasekvenser.

Betoningen på skalning återspeglar ett åtagande att göra dessa system både robusta och effektiva. DeepMinds filosofi, sammanfattad som huvudansvaret i arbetsbeskrivningen, understryker detta tillvägagångssätt:

“Implementera kärninfrastruktur och bedriva forskning för att bygga generativa modeller av den fysiska världen. Lös viktiga problem för att träna världssimulatorer i massiv skala, utveckla mätetal och skalningslagar för fysisk intelligens, kurera och kommentera träningsdata, möjliggöra interaktiv generering i realtid och studera integration av världsmodeller med multimodala språkmodeller. Omfamna den bittra lärdomen och leta efter enkla metoder som skalas, med tonvikt på starka system och infrastruktur.”

Applikationer och konsekvenser

Världsmodeller har olika tillämpningar överallt Inom robotteknik möjliggör de skapandet av virtuella miljöer där maskiner kan lära sig att navigera och manipulera objekt. Detta minskar tiden och kostnaderna för fysisk testning

Genesis, en fysiksimuleringsplattform med öppen källkod utvecklad av Carnegie Mellon University och privata industriforskare, visar hur AI-system kan tränas för 3D-fysik i en helt virtuell miljö mycket snabbare än i den verkliga världen.

Inom spel skapar världsmodeller uppslukande upplevelser med dynamiska, lyhörda miljöer. Tekniken har också potential inom sjukvården, där simuleringar kan hjälpa till med diagnostik och personlig behandlingsplanering.

Trots deras löfte, kommer dessa framsteg med utmaningar Etiska problem, särskilt när det gäller förflyttning av arbetare. Animation Guild uppskattar att över 100 000 USA-baserade jobb inom film, tv och animation kan påverkas av AI-teknik till 2026.

Juridiska frågor uppstår också, eftersom vissa världsmodeller förlitar sig på olicensierade videospelsmaterial för utbildning. Även om Google hävdar att dess praxis överensstämmer med YouTubes användarvillkor, har de inte avslöjat specifika datakällor.

Konkurrens i AI Space

DeepMinds initiativpositioner Google i en tävling med andra stora aktörer. Nvidias nya Cosmos-plattform fokuserar på fysisk AI och robotik, medan Fei-Fei Lis World Labs utvecklar storskaliga världsmodeller med rumslig intelligens för olika applikationer. Nystartade företag som Odyssey och Decart gör också framsteg, vilket bidrar till det växande området för AI-världssimuleringar.

DeepMinds tillgång till Gemini AI, Veo och Genie erbjuder en unik fördel. Genom att integrera dessa system strävar teamet efter att skapa AI som inte bara förutsäger resultat utan också anpassar sig till förändrade scenarier i realtid. Denna förmåga kan vara avgörande för att uppnå AGI, där anpassningsförmåga och generalisering är nyckeln.

DeepMind’s Vision for AGI

Medan artificiell allmän intelligens förblir en avlägsen men möjlig att uppnå mål, världsmodeller är ett avgörande steg på denna väg. Genom att simulera fysiska och virtuella miljöer ger dessa modeller en grund för AI-system som kan resonera, planera och interagera som människor.

Jobsbeskrivningen för forskningsingenjören fångar kärnan i DeepMinds vision:”Världsmodeller kommer att driva många domäner, såsom visuella resonemang och simulering, planering för förkroppsligade agenter och interaktiv underhållning i realtid.”

Categories: IT Info