A Google DeepMind új kezdeményezést indított a fizikai és virtuális környezetek szimulálására képes fejlett mesterséges intelligencia (AI) rendszerek létrehozására.
Tim Brooks, az OpenAI korábbi kutatója most vezeti az erőfeszítéseket, amelyek középpontjában a „világmodelleken” – olyan mesterséges intelligencia-rendszerek, amelyeket úgy terveztek, hogy előre jelezzék és kölcsönhatásba lépjenek a való világ dinamikájával. Az X-ről szóló bejegyzésében Brooks kijelentette: „A DeepMind ambiciózus hatalmas generatív modellek készítését tervezi, amelyek szimulálják a világot.”
Ez a projekt szorosan kapcsolódik a Google átfogóbb stratégiájához a mesterséges általános intelligencia (AGI) fejlesztésére. A világmodelleket alapvető lépésnek tekintik az AGI elérésében, amely a mesterséges intelligencia egy olyan formája, amely képes bármilyen intellektuális feladatot elvégezni, amit az ember képes.
Az új csapat együttműködik a meglévő DeepMind projektekkel, beleértve a Gemini multimodális AI-t modell, a Veo videógeneráló platform és a Genie, egy interaktív környezetgenerátor 3D szimulációk.
A DeepMind ambiciózus tervei vannak a világot szimuláló hatalmas generatív modellek elkészítésére. Felveszek egy új csapatba ezzel a küldetéssel. Gyere, építs velünk!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
– Tim Brooks (@_tim_brooks) 2025. január 6.
AI világmodelling
A világmodellek jelentős eltérést jelentenek a hagyományos AI-rendszerektől, amelyek elsősorban az adatbevitelre reagálnak. Ehelyett ezek a modellek összetett környezeteket szimulálnak multimodális adatok, például szövegek, képek és videók elemzésével. Ez a prediktív képesség különféle területeken teszi lehetővé az alkalmazásokat, a robotikai képzéstől az interaktív játékig.
Az a> az új csapat számára a tágabb célokat emeli ki: „Úgy gondoljuk, hogy a video-és multimodális adatokkal kapcsolatos előképzés skálázása az általános mesterséges intelligencia felé vezető úton halad. A világmodellek számos területen működnek majd, mint például a vizuális érvelés és szimuláció, a megtestesült ügynökök tervezése és a valós idejű interaktív szórakoztatás.”
A valós dinamikát szimulálva a világmodellek virtuális homokozót biztosítanak a teszteléshez és a teszteléshez. tanulás, javítva a mesterséges intelligencia azon képességét, hogy alkalmazkodjon és reagáljon a valós helyzetekben.
A DeepMind Genie projektje bepillantást enged a lehetőségekbe. A decemberben bemutatott Genie 2 játszható 3D-s világokat tud létrehozni a felhasználói utasítások alapján. A bemutatók között szerepelt egy vitorlás expedíció szimulációja és egy kiberpunk témájú western, amely bemutatja a platform sokoldalúságát az interaktív környezetek létrehozásában.
Interaktív, képkockánkénti mesterséges intelligencia-szimulációs bemutató a Google Genie 2-vel (Forrás: Google)
A munka A világmodelleken végzett munka eleve összetett, élvonalbeli infrastruktúrát és hatalmas számítási erőforrásokat igényel a DeepMind kutatómérnöki állásajánlatában a világmodellezésben kihívások. Feladatai közé tartozik:
Nagy méretű multimodális transzformátorok képzése, amelyek képesek különféle adattípusok elemzésére. Infrastruktúra kiépítése videó adatfolyamokhoz, amely biztosítja a hatékony gondozást és megjegyzéseket. A következtetési rendszerek optimalizálása valós idejű alkalmazásokhoz, lehetővé téve a zökkenőmentes interaktivitást. Kvantitatív értékelési mutatók kidolgozása a fizikai pontosság és intelligencia mérésére. Az ultrahosszú kontextusú transzformátorok felfedezése, amelyek lehetővé teszik a mesterséges intelligencia kiterjesztett adatszekvenciák elemzését.
A méretezésre helyezett hangsúly tükrözi azt az elkötelezettséget, hogy ezeket a rendszereket robusztussá és hatékonnyá tegyék. A DeepMind filozófiája, amelyet a munkaköri leírásban a legfontosabb felelősségekként foglalnak össze, aláhúzza ezt a megközelítést:
„Az alapvető infrastruktúra megvalósítása és kutatások lefolytatása a fizikai világ generatív modelljének felépítése érdekében. Oldja meg az alapvető problémákat a világszimulátorok tömeges képzéséhez, dolgozzon ki mérőszámokat és skálázási törvényeket a fizikai intelligencia számára, kurálja és jegyezze fel a képzési adatokat, tegye lehetővé a valós idejű interaktív generálást, és tanulmányozza a világmodellek integrálását multimodális nyelvi modellekkel. Fogadja meg a keserű leckét, és keressen egyszerű, skálázható módszereket, hangsúlyt fektetve az erős rendszerekre és infrastruktúrára.”
Alkalmazások és következmények
A világmodellek sokrétű alkalmazásai iparágak A robotikában lehetővé teszik a virtuális környezetek létrehozását, ahol a gépek megtanulhatnak navigálni és kezelni az objektumokat. Ez csökkenti a fizikai tesztelés idejét és költségeit
A Genesis, a Carnegie Mellon Egyetem és magánipari kutatók által kifejlesztett nyílt forráskódú fizikai szimulációs platform bemutatja, hogyan lehet mesterséges intelligencia rendszereket oktatni a 3D fizikára egy teljesen virtuális környezetben, sokkal gyorsabban, mint a való világban.
A játékokban a világmodellek magával ragadó élményeket hoznak létre dinamikus, érzékeny környezetekkel A technológiában az egészségügyben is megvan a lehetőség, ahol a szimulációk segíthetnek a diagnosztikában és a személyre szabott kezelés tervezésében.
Ígéretük ellenére ezek az előrelépések kihívásokkal is járnak, különösen a munkavállalók elköltöztetésével kapcsolatban. Az Animation Guild becslése szerint 2026-ra több mint 100 000 amerikai munkahelyet érinthet a MI-technológia a filmes, televíziós és animációs területen.
Jogi problémák is felmerülnek, mivel egyes világmodellek engedély nélküli videojáték-felvételekre támaszkodnak. edzés. Bár a Google azt állítja, hogy gyakorlata megfelel a YouTube szolgáltatási feltételeinek, nem hozott nyilvánosságra konkrét adatforrásokat.
Verseny az AI-térben
A DeepMind kezdeményező pozíciói A Google versenyben áll a többi jelentős szereplővel. Az Nvidia új Cosmos platformja a fizikai mesterséges intelligenciára és a robotikára összpontosít, míg a Fei-Fei Li World Labs térbeli intelligenciával rendelkező, nagyméretű világmodelleket fejleszt változatos alkalmazások. Olyan induló vállalkozások is készülnek, mint az Odyssey és a Decart lépésekkel járul hozzá a mesterséges intelligencia világszimulációinak növekvő területéhez.
A DeepMind hozzáférése a Gemini AI-hoz, a Veo-hoz és a Genie-hez egyedülálló előnyt kínál. E rendszerek integrálásával a csapat olyan mesterséges intelligencia létrehozására törekszik, amely nemcsak az eredményeket előrejelzi, hanem valós időben alkalmazkodik a változó forgatókönyvekhez. Ez a képesség kritikus lehet az AGI eléréséhez, ahol az alkalmazkodóképesség és az általánosítás kulcsfontosságú.
A DeepMind víziója az AGI-re
Míg a mesterséges általános intelligencia távoli, de elérhető A világmodellek döntő lépést jelentenek ezen az úton. A fizikai és virtuális környezetek szimulálásával ezek a modellek alapot biztosítanak olyan mesterséges intelligencia-rendszerekhez, amelyek képesek gondolkodni, tervezni és emberekhez hasonlóan kölcsönhatásba lépni.
A kutatómérnök munkaköri leírása megragadja a DeepMind víziójának lényegét: „A világmodellek erőt adnak majd. számos terület, mint például a vizuális érvelés és szimuláció, a megtestesült ügynökök tervezése és a valós idejű interaktív szórakoztatás.”