Google DeepMind har avslørt Genie 3, en ny AI-modell som bygger spillbare 3D-verdener fra enkle tekstkommandoer. Systemet ble kunngjort tirsdag og skaper disse interaktive miljøene i sanntid, et stort steg opp fra den tidligere versjonen.
Dette trekket signaliserer en strategisk akselerasjon i løpet for å bygge grunnleggende verdensmodeller. DeepMind ser på denne teknologien som en kjernedel av sin vei mot kunstig generell intelligens (AGI). Ved å teste agenter i utallige nye verdener, har laboratoriet sikte på å bygge AI som kan håndtere komplekse oppgaver i den virkelige verden.
Kunngjøringen følger dannelsen av et spesialisert World Models-team på DeepMind tidligere i år. Det understreker et tydelig engasjement for å lage AI som forstår og simulerer fysisk virkelighet, med fremtidige applikasjoner innen spill, design og robotikk.
En overskrift innovasjon i denne versjonen er det laboratoriet kaller”hurtig verdenshendelser.”Denne funksjonen lar en bruker dynamisk endre simuleringen med nye tekstkommandoer etter at den første verden er opprettet. For eksempel kan en bruker utforske et generert miljø og deretter utstede en kommando for å introdusere en flokk hjort eller plutselig endre værforholdene, som modellen vil utføre i sanntid.
Som DeepMind-forskere forklarte,”hurtige verdenshendelser gjør det mulig å endre den genererte verden, som å endre værforholdene eller innføre nye objekter og karakterer, å forbedre opplevelsen fra opplevelsen. Dette forvandler simuleringen fra et statisk rom til et responsivt og redigerbart, et avgjørende skritt for å skape mer komplekse og nyttige scenarier.
Å underbygge disse forbedringene er en forbedret evne til å opprettholde miljøkonsistens, en beryktet utfordring for generative verdensmodeller. DeepMind kaller dette en”fremvoksende evne”, der modellen husker elementer utenfor skjermen i opptil et minutt. Dette forhindrer de skurrende visuelle gjenstandene som plaged tidligere modeller som dekarts oas som ofte mistet en gang på scenen. valg som er sentralt i suksessen. Shlomi Fruchter, forskningsdirektør i Google DeepMind, beskrev det som den”første sanntids interaktive generelle formålets verdensmodell.”
Han forklarte videre mekanikken, og sa:”Modellen er auto-regressiv, noe som betyr at den genererer en ramme på et tidspunkt. Den må se tilbake på hva som var generert før å avgjøre hva som skal skje videre.”Denne sekvensielle, minnebaserte prosessen er det som gjør at Genie 3 kan bygge et intuitivt og konsekvent grep om fysikk uten å stole på en hardkodet motor.
Veien til AGI: en treningsplass for smartere ASI
AI-forskning. Laboratoriet posisjonerer modellen som et kritisk verktøy for trening legemliggjorde AI-agenter-systemer som roboter eller virtuelle avatarer designet for å operere i fysiske rom.
Det endelige målet er å fremskynde fremgangen mot kunstig generell intelligens (AGI) ved å løse et kjerneutfordring: å undervise i et (AGI) som er en god tid til å undervise i et ( i robotikk og AI-utvikling. Treningsagenter i den virkelige verden er treg, dyrt og potensielt farlig. Verdensmodeller som Genie 3 tilbyr en løsning ved å tilby en trygg, skalerbar og uendelig variabel sandkasse for læring.
Jack Parker-Hold, en forsker på DeepMinds åpenhetsteam, understreket denne strategien, og sier at”vi tror at Simulating er nøkkel til å gi en annen måte å bli en annen måte å bli en annen måte. Uendelig utvalg av”hva om”-scenarier, Genie 3 kan brukes til å lære AI-systemer hvordan de skal håndtere situasjoner som ikke er dekket i sin første trening. Som for eksempel bemerket av DeepMinds forskningsdirektør, kan det brukes til å trene en selvkjørende bil på hvordan man reagerer på en fotgjenger som plutselig vises, uten noen gang å trenge å risikere en kollisjon i den virkelige verden.
Denne evnen til å simulere motfaktuell har allerede en Agent å lære av erfaring, tilpasse seg nye utfordringer og utvikle en mer robust forståelse og effekt og effekt til å lære og utvikle seg. Genie 3 med sin sima agent . I demonstrasjoner fikk agenten distinkte mål og måtte oppnå dem ved å sende navigasjonskommandoer til Genie 3. Verdensmodellen, uvitende om agentens mål, ville ganske enkelt simulere de fysiske konsekvensene av disse handlingene, og tvinge Sima til å planlegge og utføre en lengre sekvens av handlinger for å lykkes. Dette blir et ideelt treningsplass der agenter skyves til sine grenser, tvunget til å slite og forbedre seg gjennom prøving og feiling på en måte som speiler hvordan mennesker lærer.
Denne strategien plasserer Google i direkte konkurranse med rivaler som Meta, som utvikler sine egne verdensmodeller som V-Jepa 2 for robotikk. Den underliggende troen som deles i hele bransjen er at en AI først må lære å”tenke”og planlegge innenfor en nøyaktig intern simulering av virkeligheten før den kan stole på å handle pålitelig i den fysiske verden.
Til tross for fremgangen, tilbød Parker-Hold en overbevisende analogi for å ramme inn hvor langt feltet fremdeles må gå. Han antydet at industrien ennå ikke har hatt sitt”trekk 37 øyeblikk for legemlige agenter”, der de kan”faktisk ta nye handlinger i den virkelige verden.”
Dette refererer til det berømte ukonvensjonelle og strålende trekket med DeepMinds AlphaGo som signaliserte et nytt paradigme av maskinintelligens. For legemliggjort AI er et slikt øyeblikk det ultimate, men likevel å bli gjennomgåtte gjennombruddet som verdensmodeller som Genie 3 er designet for en dag mulig.
En forskningsforhåndsvisning med den virkelige verdenen begrensninger
til tross for at den er den fremgangen, er CHANDS CAND-begrensninger . Modellen blir utgitt som en”begrenset forskningsforhåndsvisning”til en liten gruppe akademikere og skapere, ikke allmennheten. Denne forsiktige tilnærmingen gjenspeiler teknologiens begynnende stadium.
Nøkkelbegrensninger inkluderer et begrenset handlingsrom for agenter innenfor simuleringen. Videre sliter modellen med nøyaktig gjengitt tekst og kan ennå ikke simulere komplekse interaksjoner mellom flere uavhengige midler, som beskrevet i dokumentasjonen.
Varigheten av simuleringer, mens den forbedres, er fremdeles langt fra timene som trengs for omfattende agentopplæring. Fruchter erkjente veien videre og bemerket:”Det er mange ting som må skje før en modell kan distribueres i den virkelige verden, men vi ser det som en måte å mer effektivt trene modeller og øke deres pålitelighet.”Dette fremhever modellens nåværende rolle som et forskningsverktøy snarere enn et distribusjonbart produkt.
Denne målte utgivelsen lar DeepMind samle tilbakemeldinger og bedre forstå risikoen forbundet med så kraftige generative verktøy. Det understreker de enorme tekniske utfordringene som gjenstår i å bygge AI som virkelig kan speile kompleksiteten i vår verden.