Ang
meta, sa pakikipagtulungan sa mga mananaliksik sa University of Waterloo, ay nagpakilala ng isang AI system na bumubuo ng ganap na animated, speech-synchronized character nang hindi nangangailangan ng isang camera, sanggunian na mga imahe, o paggalaw ng paggalaw.”Animasyon ng character na grade ng pelikula,”bumubuo ng buong mga eksena-mga ekspresyon ng facial, kilos, at pag-uusap na pag-uusap-mula lamang sa isang pag-record ng boses at isang script. Ang modelo ay ipinakilala sa isang Pananaliksik ng papel na nai-publish na Marso 30 . Nagtatampok ang modelo ng isang module na kilala bilang pansin sa window ng Video, na nagsisiguro ng pag-synchronise sa pagitan ng audio at animation sa pamamagitan ng pag-align ng mga keyframes sa ritmo ng pagsasalita. Gumagamit din ito ng isang pinagsamang diskarte sa pagsasanay sa pagsasalita ng pagsasalita upang makuha ang konteksto ng emosyon at character sa maraming mga nagsasalita sa isang eksena. Ang suporta ng multi-character na ito ay nagbibigay-daan sa mga pag-uusap na pabalik-balik, kung saan ang tiyempo at kilos ng bawat character ay alam sa pamamagitan ng pag-log ng lohika. Upang masuri ang pagganap nito, binuo ng koponan ang Mocha-Bench, isang benchmark suite na Pagsubok ng Pag-sync ng Pag-sync, nagpapahayag ng paggalaw, at emosal na katapatan. Ang Mocha ** ay bumubuo ng mga character nang direkta mula sa teksto at pagsasalita ** nang hindi umaasa sa anumang mga signal ng pandiwang pantulong. Narito ang isang mas cinematic demo. pic.twitter.com/mnfvhrsjba
-cong wei (@congwei1230) Abril 1, 2025
Kung saan ang mga modelo tulad ng Omnihuman-1 ng Bytedance ay gumagamit ng isang imahe ng sanggunian, mag-pose ng data, at audio upang makabuo ng animation, ang mga mocha ay lumaktaw sa mga visual na input. Ang Omnihuman-1, na inilunsad noong Pebrero 4, ay nag-aaplay ng isang pagsasabog ng transpormer at pose-guided animation system. Ang sistema ay sinanay sa higit sa 19,000 na oras ng video at inilalapat ang gabay na walang classifier upang mapabuti ang pagiging totoo at pagkakaiba-iba. Pinangangasiwaan nito ang parehong paggalaw ng katawan at facial gamit lamang ang pagsasalita at text conditioning, na walang panlabas na visual na mga angkla. Ang disenyo na walang sanggunian na ito ay nag-aalis ng pangangailangan para sa mga kumplikadong pag-setup ng camera o detalyadong script ng paggalaw, na nag-aalok ng mga tagalikha ng isang naka-streamline na landas sa synthetic storytelling. Nagtatampok din ang modelo ng hindi autoregressive decoding, pagpapabuti ng kahusayan sa pamamagitan ng paghula ng buong mga frame ng paggalaw na kahanay sa halip na isang hakbang nang paisa-isa. Nag-iiwan ito ng mga katanungan tungkol sa kapasidad ng pangkalahatang pangkalahatan nito, kahit na ang mga benchmark ng pagganap ay nagmumungkahi ng mga de-kalidad na resulta kahit na may hindi nakikitang data. Noong Oktubre 2024, pinakawalan ng Runway ang Act-One, isang tampok na nagpapahintulot sa mga gumagamit na i-record ang kanilang sariling mga ekspresyon sa mukha gamit ang isang smartphone, pagkatapos ay mapa ang mga pagtatanghal sa mga animated na character. Ang bypasses tradisyonal na pagkuha ng paggalaw at isinama sa mga modelo ng henerasyon ng video ng Runway. Gayunpaman, ipinapalagay nito na ang gumagamit ay handang gumanap ng eksena. Ang Mocha ay hindi nangangailangan ng pagganap. Bumubuo ito ng expression at paggalaw mula sa mga text ay nag-iisa. Ang mga tool ng Runway ay na-optimize para sa malikhaing kontrol at pagiging totoo na nakaugat sa mga pisikal na input. Ang Mocha ay nag-automate ng pagganap, ang paglikha ng mga character na maaaring kumilos nang nakapag-iisa. Ito ay lalong angkop para sa salaysay na mabibigat na nilalaman tulad ng mga video na nagpapaliwanag, mga eksena sa digital na diyalogo, at pagkukuwento na hinihimok ng boses kung saan ang mga pag-setup ng camera ay hindi praktikal. Sinusuportahan ng Gen-4 ang pag-uudyok sa antas ng eksena, mga dynamic na landas ng camera, kontrol sa pag-iilaw, at feedback ng real-time para sa mga visual na pag-edit. Ang mga tampok na ito ay nagpapahintulot sa mga tagalikha na bumuo ng mga eksena na may higit na katumpakan, ngunit nagtataas din sila ng mga hinihingi ng hardware para sa pag-render ng high-resolution. Pinahahalagahan ang paglikha ng mababang-friction 2.1, isang open-source na modelo ng video na idinisenyo upang madagdagan ang pag-access para sa mga developer at mas maliit na mga studio. Sa halip na magtayo ng mga kapaligiran o cinematic polish, nakatuon ito sa pag-uugali ng character, paghahatid, at emosyonal na pagpapahayag-lahat mula sa isang script at boses. Noong Setyembre 2024, ang kumpanya Ipinakilala ang isang AI dubbing tool na maaaring awtomatikong isalin at sync ang mga video habang pinangangunahan ang orihinal na boses at facial. Ang system ay nagpapanatili ng pag-synchronise ng boses at labi sa buong wika. Ang mga virtual na profile ay maaaring mag-post ng nilalaman, makipag-ugnay sa mga gumagamit, at gayahin ang aktibidad ng influencer. Ang ideya ay upang mamuhay ng mga platform na may mga character na hinihimok ng AI na lumabo ang linya sa pagitan ng libangan at pakikipag-ugnayan ng gumagamit.
Samantala, ang pamumuno ay lumilipat. joelle pineau , ang ulo ng meta ay ang isang pangunahing pananaliksik at isang key figure sa likod-ng-seurce na tulad ng mga kagaya ng Open-Sour. Si Llama, ay bababa sa katapusan ng Mayo. Sa panahon ng kanyang panunungkulan, ang Meta Advanced Generative AI para sa parehong pananaliksik at komersyal na paggamit, kabilang ang mga modelo na ngayon ay pinapagana ang mga tampok ng Meta AI sa buong mga platform. Sa ngayon, nakatayo ito bilang isang prototype ng kung ano ang hitsura ng character na character na batay sa script sa malapit na hinaharap-ganap na nabuo ang mga pagtatanghal, walang mga aktor o camera na kasangkot.