Meta, në bashkëpunim me studiuesit në Universitetin e Waterloo, ka prezantuar një sistem AI që gjeneron karaktere plotësisht të animuara, të synuara të të folurit pa kërkuar një aparat fotografik, imazhe referimi, ose kapje lëvizjeje.”Animacion i personazhit të klasës së filmit”, ndërton skena të tëra-shprehje të drejta, gjeste dhe dialog marrës-nga vetëm një regjistrim zëri dhe një skenar. Modeli u prezantua në një Letër hulumtuese e botuar 30 Mars . Modeli përmban një modul të njohur si vëmendje e dritares së fjalës-video, e cila siguron sinkronizimin midis audios dhe animacionit duke përafruar kornizat kryesore me ritmin e të folurit. Ai gjithashtu përdor një strategji të përbashkët trajnimi për tekstin e të folurit për të kapur kontekstin e emocioneve dhe karakterit nëpër folës të shumtë në një skenë. Mbështetja e saj me shumë karaktere mundëson biseda mbrapa dhe me radhë, ku koha dhe gjesti i secilit personazh informohen nga logjika e marrjes së kthesës. Për të vlerësuar performancën e tij, ekipi zhvilloi Mocha-Bench, një standard i saktësisë së sinkronizimit të testimit të suitave, lëvizjes ekspresive dhe besnikërisë emocionale. ** Gjeneron karaktere direkt nga teksti dhe fjalimi ** pa u mbështetur në ndonjë sinjal ndihmës. Këtu është një demonstrim më kinematik. pic.twitter.com/mnfvhrsjba

-kong wei (@congwei1230) Kur modele si omnihuman-1 të Bytedance përdorin një imazh referimi, paraqesin të dhëna dhe audio për të gjeneruar animacion, Mocha kalon hyrjet vizuale krejt. Omnihuman-1, lançuar 4 shkurt, aplikon një sistem të animacionit të transformatorit të difuzionit dhe të drejtuar nga poza. Sistemi u trajnua në mbi 19,000 orë video dhe aplikon udhëzime pa klasifikues për të përmirësuar realizmin dhe diversitetin.

Mocha, në të kundërt, përdor një tubacion plotësisht gjenerues. Ajo merret me lëvizjen e trupit dhe të fytyrës duke përdorur vetëm kondicionimin e të folurit dhe tekstit, pa spiranca vizuale të jashtme. Ky dizajn pa referencë heq nevojën për vendosje komplekse kamerash ose skriptim të detajuar të lëvizjes, duke u ofruar krijuesve një shteg të thjeshtë për tregimin sintetik. Modeli gjithashtu përmban deshifrim jo-autoregresiv, duke përmirësuar efikasitetin duke parashikuar kornizat e plota të lëvizjes paralelisht në vend të një hapi në një kohë. Kjo lë pyetje në lidhje me aftësinë e tij të përgjithësimit, megjithëse standardet e performancës sugjerojnë rezultate me cilësi të lartë edhe me të dhëna të padukshme. Në Tetor 2024, Runway lëshoi ​​ACT-ONE, një veçori që lejon përdoruesit të regjistrojnë shprehjet e tyre të fytyrës duke përdorur një smartphone, pastaj të hartojnë ato shfaqje në karaktere të animuara. Kjo anashkalon kapjen tradicionale të lëvizjes dhe është e integruar në modelet e gjenerimit të videove të pistës. Sidoqoftë, supozon se përdoruesi është i gatshëm të kryejë skenën. Mocha nuk kërkon performancë. Ajo gjeneron shprehje dhe lëvizje nga kërkesat e tekstit vetëm.

Ky dallim ka rëndësi. Mjetet e pistës janë optimizuar për kontrollin krijues dhe realizmin e rrënjosur në inputet fizike. Mocha automatizon performancën, duke krijuar karaktere që mund të veprojnë skriptet në mënyrë të pavarur. Especiallyshtë veçanërisht e përshtatshme për përmbajtje të rëndë narrative si videot e shpjeguesve, skenat dixhitale të dialogut dhe tregimet e drejtuara nga zëri, ku vendosjet e kamerave janë jopraktike. GEN-4 mbështet nxitje të nivelit të skenës, shtigje dinamike të kamerave, kontroll të ndriçimit dhe reagime në kohë reale për redaktimet vizuale. Këto karakteristika lejojnë krijuesit të ndërtojnë skena me më shumë saktësi, por ato gjithashtu rritin kërkesa për harduer për interpretim me rezolucion të lartë. Krijimi i fërkimit të ulët. Modeli i krijuar për të rritur aksesin për zhvilluesit dhe studiot më të vogla.

Mocha dallon veten duke u përqëndruar në performancën dhe dialogun. Në vend që të ndërtojë mjedise ose polonisht kinematografik, ai përqendrohet në sjelljen e karakterit, shpërndarjen dhe shprehjen emocionale-të gjitha nga një skenar dhe zë. Në Shtator 2024, kompania prezantoi një mjet Dubbing AI që mund të përkthejë automatikisht dhe sinkronizimin e videove dhe sinkronizimit të zërit dhe të fytyrës. Sistemi mban sinkronizimin e lëvizjes së zërit dhe të buzëve nëpër gjuhë. Profilet virtuale tese mund të postojnë përmbajtje, të bashkëveprojnë me përdoruesit dhe të simulojnë aktivitetin e influencuesit. Ideja është të popullojmë platforma me karaktere të drejtuara nga AI që mjegullojnë vijën midis argëtimit dhe angazhimit të përdoruesit.

Ndërkohë, udhëheqja po zhvendoset.