A Meta, a Waterloo Egyetem kutatóival együttműködve, bevezetett egy AI rendszert, amely teljesen animált, beszédszinkronizált karaktereket generál, fényképezőgép, referenciaképek vagy mozgás-rögzítés nélkül. „A filmminőségű karakter animáció”, a teljes jeleneteket-a faji kifejezéseket, a gesztusokat és a forduló párbeszédet-csak egy hangfelvételből és egy forgatókönyvből. A modellt a pic.twitter.com/mnfvhrsjba

-Cong Wei (@Congwei1230) április 1., 2025

Ha olyan modellek, mint a Bytedance Omnihuman-1, referenciaképet, adatot és hangot használnak animáció előállításához, a Mocha teljesen kihagyja a vizuális bemeneteket. Az Omnihuman-1, amelyet február 4-én indítottak, diffúziós transzformátort és póz-vezérelt animációs rendszert alkalmaznak. A rendszert több mint 19 000 órás videón képzették, és osztályozó-mentes útmutatást alkalmaznak a realizmus és a sokféleség javítása érdekében. Csak beszéd-és szöveges kondicionálással kezeli a testet és az arcmozgást, külső vizuális horgonyok nélkül. Ez a referenciamentes kialakítás megszünteti a komplex kamera beállításainak vagy a részletes mozgásszkriptek szükségességét, és az alkotók számára ésszerűsített utat kínál a szintetikus történetmeséléshez. A modell nem autoregresszív dekódolást is tartalmaz, javítva a hatékonyságot azáltal, hogy a teljes mozgáskeretet párhuzamosan előre jelzi, nem pedig egyszerre egy lépéssel. Ez kérdéseket tesz fel általánosítási képességével kapcsolatban, bár a teljesítmény-referenciaértékek még láthatatlan adatokkal is kiváló minőségű eredményeket sugallnak. 2024 októberében a Runway kiadta az One Act One-t, amely lehetővé teszi a felhasználók számára, hogy okostelefon segítségével rögzítsék saját arckifejezésüket, majd ezeket az előadásokat animált karakterekre térképezzék fel. Ez megkerüli a hagyományos mozgás-rögzítést, és integrálódik a kifutópálya videogenerációs modelljeibe. Feltételezi azonban, hogy a felhasználó hajlandó végrehajtani a jelenetet. A Mocha nem igényel teljesítményt. Kifejezést és mozgást generál önmagában. A kifutópálya eszközeit a kreatív irányításhoz és a fizikai bemenetekben gyökerező realizmushoz optimalizálják. A Mocha automatizálja a teljesítményt, olyan karaktereket hozva létre, amelyek önállóan képesek a szkripteket. Különösen alkalmas narratív-nehéz tartalomra, például magyarázó videókra, digitális párbeszéd jelenetekre és hangvezérelt történetmesélésre, ahol a kamera beállítása nem praktikus. A Gen-4 támogatja a jelenet szintű felszólítását, a dinamikus kamera útvonalakat, a világításvezérlést és a valós idejű visszajelzést a vizuális szerkesztésekhez. Ezek a funkciók lehetővé teszik az alkotók számára, hogy pontosabban készítsenek jeleneteket, de felvetik a hardverigényeket a nagy felbontású megjelenítéshez. Az alacsony súrlódás. A video modell, amelynek célja a fejlesztők és a kisebb stúdiók hozzáférhetőségének növelése. A környezetek vagy a filmes lengyel felépítése helyett a karakter viselkedésére, a kézbesítésre és az érzelmi kifejezésre koncentrál-mindezt a forgatókönyvből és a hangból. 2024 szeptemberében a cég Az eredeti mozgást és a Fachial Comtion -ot. A rendszer fenntartja a hang-és ajakmozgás szinkronizálását a nyelveken. A TESE virtuális profilok tartalmat tesznek közzé, kölcsönhatásba léphetnek a felhasználókkal és szimulálhatják a befolyásoló tevékenységeket. Az ötlet az, hogy a platformokat olyan AI-vezérelt karakterekkel töltsék fel, amelyek elmossanak a szórakozás és a felhasználói elkötelezettség között.

Eközben a vezetés változik. Joelle Pineau , Meta feje AI feje, és egy kulcsfontosságú kutatás mögötte. május végén lép le. Hivatali ideje alatt a Meta fejlett generatív AI-t mind kutatási, mind kereskedelmi felhasználásra, ideértve a Meta AI szolgáltatásokkal működő modelleket is a platformon keresztül. Jelenleg prototípusként szolgál annak, hogy a szkript-alapú karakter animáció hogyan nézhet ki a közeljövőben-jól generált előadásokat, színészeket vagy kamerákat sem.

Categories: IT Info