Google DeepMind heeft Genie 3 onthuld, een nieuw AI-model dat speelbare 3D-werelden bouwt van eenvoudige tekstopdrachten. Dinsdag aangekondigd, creëert het systeem deze interactieve omgevingen in realtime, een belangrijke stap verder dan de eerdere versie.

Deze beweging betekent een strategische versnelling in de race om fundamentele wereldmodellen te bouwen. DeepMind beschouwt deze technologie als een kernonderdeel van zijn weg naar kunstmatige algemene intelligentie (AGI). Door agenten in talloze nieuwe werelden te testen, wil het lab AI bouwen dat complexe, real-world taken kan aankunnen.

De aankondiging volgt de vorming van een gespecialiseerd World Models-team in DeepMind eerder dit jaar. It underscores a clear commitment to creating AI that understands and simulates physical reality, with future applications in gaming, design, and robotics.

From Seconds to Minuten: een sprong in realtime wereldgeneratie

Genie 3 vertegenwoordigt een significante technische sprong over zijn voorganger, Genie 2, van een veelbelovend proof-of-concept naar een veel capabeler platform. Het nieuwe model genereert interactieve werelden met een resolutie van 720p, een belangrijke upgrade van de 360p-output van zijn voorloper. Het werkt ook met een vloeibare 24 frames per seconde, waardoor de realtime ervaring soepeler en meeslepender is.

Misschien is de meest kritische vooruitgang de uitgebreide interactietijd. Terwijl Genie 2-simulaties vaak begonnen met het tonen van visuele artefacten en degraderen na slechts 10 tot 20 seconden, kan Genie 3 een coherente en visueel consistente wereld in stand houden voor”enkele minuten”, add To Deepmind. Deze levensduur is van vitaal belang voor het inschakelen van betekenisvolle interactie of agenttraining binnen de gegenereerde omgevingen.

Een headline-innovatie in deze versie is wat het lab’snelle wereldevenementen’noemt. Met deze functie kan een gebruiker de simulatie dynamisch wijzigen met nieuwe tekstopdrachten nadat de eerste wereld is gemaakt. Een gebruiker kan bijvoorbeeld een gegenereerde omgeving verkennen en vervolgens een opdracht geven om een kudde herten te introduceren of plotseling de weersomstandigheden te veranderen, die het model in realtime zal uitvoeren.

zoals DeepMind-onderzoekers hebben uitgelegd,”maakt de wereldgebeurtenissen mogelijk om de gegenereerde wereld te wijzigen, zoals het wijzigen van de weersomstandigheden of het introduceren van nieuwe objecten en personages, de ervaring van de ervaring van navigatie.”Dit transformeert de simulatie van een statische ruimte naar een responsieve en bewerkbare, een cruciale stap voor het creëren van complexere en nuttige scenario’s.

die aan deze verbeteringen ten grondslag ligt, is een verbeterd vermogen om de consistentie van het milieu te behouden, een beruchte uitdaging voor generatieve wereldmodellen. DeepMind noemt dit een’opkomende mogelijkheid’, waarbij het model maximaal een minuut van het scherm elementen onthoudt. Dit voorkomt de schommelende visuele artefacten die geplaagde eerdere modellen zoals Decart’s Oasis , die vaak layouts van de scène is verloren tijdens interactie. staat centraal in zijn succes. Shlomi Fruchter, een onderzoeksdirecteur bij Google DeepMind, beschreef het als het”eerste real-time interactieve wereldmodel voor algemeen doeleinden”. Hij legde de mechanica verder uit en verklaarde:”Het model is auto-regressief, wat betekent dat het één frame tegelijk genereert. Het moet terugkijken op wat eerder is gegenereerd om te beslissen wat er gaat gebeuren.”This sequential, memory-based process is what allows Genie 3 to build an intuitive and consistent grasp of physics without relying on a hard-coded engine.

The Path to AGI: A Training Ground for Smarter AI

While the prospect of generating video game worlds on the fly is compelling, DeepMind is clear that Genie 3’s primary purpose is not consumer entertainment but fundamental AI-onderzoek. Het lab positioneert het model als een cruciaal hulpmiddel voor training belichaamde AI-agenten-systemen zoals robots of virtuele avatars die zijn ontworpen om in fysieke ruimtes te werken. Het uiteindelijke doel is om de vooruitgang in de richting van kunstmatige algemene intelligentie (AGI) te versnellen door een van zijn kernuitdagingen op te lossen: een AI leren om veilig en effectief onvoorspelbare omgevingen te navigeren.

Deze focus wordt aangedreven door een langdurig bottleneck in robotica en AI-ontwikkeling. Trainingsagenten in de echte wereld zijn langzaam, duur en potentieel gevaarlijk. Wereldmodellen zoals Genie 3 bieden een oplossing door een veilige, schaalbare en oneindig variabele sandbox te bieden om te leren. Jack Parker-Holder, een onderzoekswetenschapper in het open-endness-team van DeepMind, benadrukte deze strategie en verklaarde:”We denken dat wereldmodellen de sleutel zijn op het pad naar AGI, specifiek voor belichaamde agenten, waar het simuleren van real world-scenario’s met name uitdagend is.”

door een eindeloze variëteit van”wat”scenario’s te genereren, kan worden gebruikt om situaties te gebruiken om situaties niet te gebruiken. Zoals opgemerkt door de onderzoeksdirecteur van DeepMind, zou het bijvoorbeeld kunnen worden gebruikt om een zelfrijdende auto te trainen over hoe te reageren op een voetganger die plotseling verschijnt, zonder ooit een real-world botsing te riskeren. Met deze mogelijkheid om counterfactuals te simuleren kan een agent leren van ervaring, zich aanpassen aan nieuwe uitdagingen en een robuuster begrip van oorzaak en gevolg ontwikkelen.

Om het hulpprogramma te bewijzen, heeft DeepMind al Integrated Genie 3 met zijn sima-agent . In demonstraties kreeg de agent verschillende doelen en moest ze bereiken door navigatiecommando’s naar Genie 3 te sturen. Dit wordt een ideaal trainingsgebied waar agenten tot het uiterste worden geduwd, gedwongen worden te worstelen en te verbeteren door vallen en opstaan op een manier die weerspiegelt hoe mensen leren.

Deze strategie plaatst Google in directe concurrentie met rivalen zoals meta, die zijn eigen wereldmodellen ontwikkelen zoals V-JEPA 2 voor robotics. Het onderliggende geloof dat in de industrie wordt gedeeld, is dat een AI eerst moet leren”te denken”en te plannen”binnen een nauwkeurige interne simulatie van de realiteit voordat deze kan worden vertrouwd om betrouwbaar te handelen in de fysieke wereld.

Ondanks de vooruitgang bood Parker-Holder een dwingende analogie om te kaderen hoe ver het veld nog moet gaan. Hij suggereerde dat de industrie nog niet zijn’Move 37 Moment voor belichaamde agenten’heeft gehad, waar ze’daadwerkelijk nieuwe acties in de echte wereld kunnen ondernemen’. Dit verwijst naar de beroemde onconventionele en briljante beweging van de Deepmind’s Alphago die een nieuw paradigma van machine-intelligentie aangaf. Voor belichaamde AI blijft zo’n moment de ultieme, nog te worden beoogde, doorbraak dat wereldmodellen zoals Genie 3 zijn ontworpen om één dag mogelijk te maken.

Een onderzoekspreview met real-world beperkingen

ondanks de voortgang, Deepmind is kandidaat over genie 3’s huidige tekortkomingen. Het model wordt uitgebracht als een”Limited Research Preview”voor een kleine groep academici en makers, niet het grote publiek. Deze voorzichtige aanpak weerspiegelt het opkomende stadium van de technologie.

De belangrijkste beperkingen omvatten een beperkte actieruimte voor agenten binnen de simulatie. Bovendien worstelt het model met het nauwkeurig het weergeven van tekst en kan het nog geen complexe interacties tussen meerdere onafhankelijke agenten simuleren, zoals gedetailleerd in zijn documentatie.

De duur van simulaties, hoewel verbeterd, is nog verre van de uren die nodig zijn voor uitgebreide agenttraining. Fruchter erkende de weg die voor ons ligt en merkte op:”Er zijn veel dingen die moeten gebeuren voordat een model in de echte wereld kan worden ingezet, maar we zien het wel als een manier om modellen efficiënter te trainen en hun betrouwbaarheid te vergroten.”Dit benadrukt de huidige rol van het model als een onderzoekstool in plaats van een inzetbaar product.

Met deze gemeten release kan DeepMind feedback verzamelen en de risico’s die verband houden met zulke krachtige generatieve tools beter begrijpen. Het onderstreept de enorme technische uitdagingen die blijven bij het bouwen van AI die echt de complexiteit van onze wereld kunnen weerspiegelen.

Categories: IT Info