Nagsimula ang Google DeepMind ng bagong inisyatiba upang lumikha ng mga advanced na artificial intelligence (AI) system na may kakayahang gayahin ang mga pisikal at virtual na kapaligiran.
Nangunguna ngayon si Tim Brooks, isang dating mananaliksik sa OpenAI, sa pagsisikap, na nakatutok sa”world models”—AI system na idinisenyo upang hulaan at makipag-ugnayan sa real-world dynamics. Sa isang post sa X, sinabi ni Brooks,”Ang DeepMind ay may ambisyosong mga plano na gumawa ng napakalaking generative na mga modelo na gayahin ang mundo.”
Ang proyektong ito ay malapit na nauugnay sa mas malaking diskarte ng Google upang isulong ang artificial general intelligence (AGI). Ang mga modelo sa mundo ay nakikita bilang isang pangunahing hakbang sa pagkamit ng AGI, isang anyo ng AI na may kakayahang magsagawa ng anumang intelektwal na gawain na magagawa ng isang tao.
Makikipagtulungan ang bagong team sa mga kasalukuyang proyekto ng DeepMind, kasama ang Gemini multimodal AI modelo, ang Veo video generation platform, at Genie, isang environment generator para sa interactive na 3D mga simulation.
Ang DeepMind ay may ambisyosong mga plano na gumawa ng napakalaking generative na mga modelo na gayahin ang mundo. Nag-hire ako para sa isang bagong team sa misyong ito. Sumama ka sa amin!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— Tim Brooks (@_tim_brooks) Enero 6, 2025
AI World Modeling
Ang mga modelo sa mundo ay kumakatawan sa isang makabuluhang pag-alis mula sa mga tradisyonal na AI system, na pangunahing tumutugon sa data mga input. Sa halip, ginagaya ng mga modelong ito ang mga kumplikadong kapaligiran sa pamamagitan ng pagsusuri ng multimodal na data, gaya ng text, mga larawan, at mga video. Ang kakayahang panghuhula na ito ay nagbibigay-daan sa mga aplikasyon sa iba’t ibang larangan, mula sa pagsasanay sa robotics hanggang sa interactive na paglalaro.
Isang paglalarawan sa trabaho
a> para sa bagong team ay nagha-highlight sa mas malawak na mga layunin:”Naniniwala kami na ang pag-scale ng pretraining sa video at multimodal na data ay nasa kritikal na landas patungo sa artificial general intelligence. Ang mga modelo ng mundo ay magpapagana sa maraming domain, gaya ng visual na pangangatwiran at simulation, pagpaplano para sa mga embodied agent, at real-time na interactive na entertainment.”
Sa pamamagitan ng pagtulad sa real-world dynamics, ang mga world model ay nagbibigay ng virtual sandbox para sa pagsubok at pag-aaral, pagpapahusay sa kakayahan ng AI na umangkop at tumugon sa mga totoong sitwasyon sa mundo.
Ang proyekto ng DeepMind’s Genie ay nag-aalok ng sulyap sa mga inilunsad sa Disyembre, makakabuo ang Genie 2 ng mga nape-play na 3D na mundo batay sa mga senyas ng user. Kasama sa mga demonstrasyon ang isang sailing expedition simulation at isang Western na may temang cyberpunk, na nagpapakita ng versatility ng platform sa paglikha ng mga interactive na kapaligiran.
Interactive na frame-by-frame AI simulation demo na ginawa gamit ang Google Genie 2 (Source: Google)
Ang gawain on world models ay likas na kumplikado, nangangailangan ng makabagong imprastraktura at malawak na computational resources kasangkot. Kasama sa mga responsibilidad ang:
Pagsasanay ng malakihang multimodal transformer na may kakayahang magsuri ng magkakaibang uri ng data. Pagbuo ng imprastraktura para sa mga pipeline ng data ng video, tinitiyak ang mahusay na pag-curate at anotasyon. Pag-optimize ng mga inference system para sa mga real-time na application, na nagpapagana ng tuluy-tuloy na interaktibidad. Pagbuo ng mga sukatan ng quantitative evaluation upang sukatin ang pisikal na katumpakan at katalinuhan. Paggalugad ng mga ultra-long-context na mga transformer, na nagbibigay-daan sa AI na suriin ang mga pinahabang sequence ng data.
Ang diin sa scaling ay sumasalamin sa isang pangako sa paggawa ng mga system na ito na parehong matatag at mahusay. Ang pilosopiya ng DeepMind, na buod bilang mga pangunahing responsibilidad sa paglalarawan ng trabaho, ay binibigyang-diin ang diskarteng ito:
“Ipatupad ang pangunahing imprastraktura at magsagawa ng pananaliksik upang bumuo ng mga generative na modelo ng pisikal na mundo. Lutasin ang mahahalagang problema para sanayin ang mga simulator ng mundo sa napakalaking sukat, bumuo ng mga sukatan at mga batas sa pag-scale para sa pisikal na katalinuhan, i-curate at i-annotate ang data ng pagsasanay, paganahin ang real-time na interactive na henerasyon, at pag-aralan ang pagsasama ng mga modelo ng mundo na may mga multimodal na modelo ng wika. Yakapin ang mapait na aral at humanap ng mga simpleng pamamaraan na may sukat, na may diin sa malalakas na sistema at imprastraktura.”
Mga Aplikasyon at Implikasyon
Ang mga modelo sa mundo ay may magkakaibang mga aplikasyon sa kabuuan sa mga robotics, pinapagana nila ang paglikha ng mga virtual na kapaligiran kung saan ang mga makina ay maaaring matutong mag-navigate at magmanipula ng mga bagay Ang open-source physics simulation platform na binuo ng Carnegie Mellon University at mga pribadong mananaliksik sa industriya, ay nagpapakita kung paano masasanay ang mga AI system para sa 3D physics sa isang ganap na virtual na kapaligiran nang mas mabilis kaysa sa totoong mundo.
Sa gaming, mundo Lumilikha ang mga modelo ng mga nakaka-engganyong karanasan sa mga dynamic, tumutugon na kapaligiran Ang teknolohiya ay may potensyal din sa pangangalagang pangkalusugan, kung saan maaaring makatulong ang mga simulation sa mga diagnostic at personalized na pagpaplano ng paggamot.
Sa kabila ng kanilang pangako, ang mga pagsulong na ito ay kasama. mga hamon. Tinatantya ng Animation Guild na mahigit 100,000 na trabahong nakabase sa U.S. sa pelikula, telebisyon, at animation ang maaaring maapektuhan ng mga teknolohiya ng AI pagsapit ng 2026.
Bumangon din ang mga legal na isyu, dahil umaasa ang ilang modelo sa mundo sa hindi lisensyadong video game footage para sa pagsasanay. Bagama’t iginiit ng Google na ang mga kagawian nito ay sumusunod sa mga tuntunin ng serbisyo ng YouTube, hindi ito nagsiwalat ng mga partikular na pinagmumulan ng data.
Kumpetisyon sa AI Space
Mga posisyon sa inisyatiba ng DeepMind Google sa isang mapagkumpitensyang karera kasama ang iba pang mga pangunahing manlalaro. Nakatuon ang bagong Cosmos platform ng Nvidia sa pisikal na AI at robotics, habang ang World Labs ni Fei-Fei Li ay bubuo ng mga malalaking modelo ng mundo na may spatial intelligence para sa magkakaibang mga aplikasyon. Gumagawa din ang mga startup tulad ng Odyssey at Decart mga hakbang, na nag-aambag sa lumalagong larangan ng AI world simulation.
Ang pag-access ng DeepMind sa Gemini AI, Veo, at Genie ay nag-aalok ng natatanging kalamangan. Sa pamamagitan ng pagsasama-sama ng mga system na ito, nilalayon ng team na lumikha ng AI na hindi lamang hinuhulaan ang mga resulta ngunit umaangkop din sa pagbabago ng mga senaryo sa real time. Ang kakayahang ito ay maaaring maging kritikal para sa pagkamit ng AGI, kung saan ang adaptability at generalization ay susi.
DeepMind’s Vision for AGI
Habang ang artificial general intelligence ay nananatiling malayo ngunit maaabot layunin, ang mga modelo ng mundo ay isang mahalagang hakbang sa landas na ito. Sa pamamagitan ng pagtulad sa mga pisikal at virtual na kapaligiran, ang mga modelong ito ay nagbibigay ng pundasyon para sa mga AI system na maaaring mangatwiran, magplano, at makipag-ugnayan tulad ng mga tao.
Ang paglalarawan ng trabaho ng Research Engineer ay kumukuha ng esensya ng pananaw ng DeepMind:”Ang mga modelo sa mundo ay magpapalakas. maraming domain, gaya ng visual na pangangatwiran at simulation, pagpaplano para sa mga embodied agent, at real-time na interactive na entertainment.”