A kínai technológiai óriás, Tencent kiadta a Hunyuanworld-Voyager-t, egy új AI modellt, amely egyetlen fényképet egy felfedezhető 3D-s világsá változtat. A cég szeptember 2-án nyílt meg az eszközt. 3D-k-konzisztens videókat készít, amelyeken a felhasználók át tudnak mozogni, így a Tencent a versenyen a versenyen az AI világmodellek felépítéséhez. Erőteljes hardverre van szüksége, amely legalább 60 GB memóriával rendelkező GPU-t igényel. A modell licencje szintén blokkolja annak használatát Európában és az Egyesült Királyságban. Ez a kiadás a Tencent szélesebb körű Hunyuan AI ökoszisztémájának része, amely magában foglalja a fordítási és érvelési modelleket. Ez a kettős kimenet kritikus, mivel lehetővé teszi a generált jelenet közvetlen 3D rekonstrukcióját. A felhasználók meghatározhatják a kamera elérési útját olyan egyszerű parancsokkal, mint a „Forward” vagy a „Turn_Left” a környezet navigálásához, egy statikus képet dinamikus térként feltárva. A „világkonzisztens video diffúziós” összetevő biztosítja, hogy a generált videó koherens maradjon. Eközben a „Hosszú távú világkutatás” rendszer Világ gyorsítótárat és pontvágást használ a szűrőn kívüli elemek emlékezésére, és megakadályozza a sok generatív videó modellt. Az olyan játékosok, mint a Google Deepmind, amely saját világmodelleit fejleszti ki, mint például a Genie 3. Ahogyan az egyik Deepmind tudós megjegyezte: „Úgy gondoljuk, hogy a világmodellek kulcsfontosságúak az AGI felé vezető úton, különös tekintettel a megtestesített ügynökökre, ahol a valós forgatókönyvek szimulálása különösen kihívást jelent.”A Stanford-developed Worldscore Benchmark , a Voyager a legmagasabb pontszámot 77,62-re érte el. Ez elé helyezi azokat a versengő modelleket, mint a WonderWorld (72,69) és a Cogvideox-i2V (62.15), a . Miközben a kamera vezérlésében 85,95-nél magasan szerezte a második pontot, ebben a kategóriában a második volt a WonderWorld 92,98-as számának. Ez a részletességi szint egy nagyon képes, ha nem tökéletes rendszert mutat be. A Tencent épített egy egyedi adatmotorot, amely automatikusan több mint 100 000 videoklipet dolgozott fel a valós felvételekből és az Unreal Engine szintetikus megjelenítését. Ez az automatizált csővezeték megoldja az iparági szűk keresztmetszetet, kiküszöbölve a lassú és drága kézi 3D kommentárok szükségességét. A Tencent ügyvezető igazgató nemrégiben elmagyarázta ezt a hangsúlyt, kijelentve: „A kínai vállalatok általában prioritást élveznek a hatékonyságra és a felhasználásra-a GPU-kiszolgálók hatékony felhasználása. És ez nem feltétlenül rontja a fejlesztett technológia végső hatékonyságát.”szerszám. A hardverkövetelmények jelentősek, legalább 60 GB GPU-memóriát igényelnek 540p felbontáshoz, 80 GB-os ajánlottak. Ez a magas gát hatékonyan korlátozza felhasználását a jól finanszírozott kutatólaboratóriumokra és a nagyvállalatokra, annak nyílt forrású jellege ellenére. Nyolc GPU-beállításon a Tencent 6,69x sebességjavítást igényel egyetlen kártya felett. Ez a nagyobb méretű kísérleteket megvalósíthatóbbá teszi azoknak a szervezeteknek, amelyek megengedhetik maguknak a hardvert. A modellt tilos az EU-ban, az Egyesült Királyságban és Dél-Koreában való felhasználáshoz, ez a lépés tükrözheti a geopolitikai vagy versenyképes számításokat. Ezenkívül minden több mint 100 millió havi aktív felhasználóval rendelkező kereskedelmi szolgáltatásnak külön engedélyt kell biztosítania a Tencent-től. Ezek az akadályok óvatos, stratégiai bevezetést sugallnak a hatalmas technológiához.