Meta's Mocha AI animoi vain äänen ja tekstin hahmot

Meta, yhteistyössä Waterloon yliopiston tutkijoiden kanssa, on ottanut käyttöön AI-järjestelmän, joka tuottaa täysin animoituja, puheen synkronoituja merkkejä vaatimalla kameraa, viitekuvia tai liikkeen sieppausta. “Elokuvaluokan hahmo-animaatio” rakentaa kokonaiset kohtaukset-facial ilmaisut, eleet ja kääntyvän vuoropuhelun-vain äänitallennuksesta ja käsikirjoituksesta. Malli esiteltiin 30. maaliskuuta julkaistu tutkimuspaperi. Mallissa on moduuli, joka tunnetaan puhe-videoikkunan huomiona, joka varmistaa äänen ja animaation välisen synkronoinnin kohdistamalla avainkehykset puhurytmiin. Se käyttää myös yhteistä puheteksti-koulutusstrategiaa tunne-ja hahmokontekstin sieppaamiseen useiden puhujien välillä kohtauksessa.

-cong wei (@congwei1230) 1. huhtikuuta 2025

-kehityspohjainen tarinapohjainen

Jos Bydance’s Omnihuman-1: n kaltaiset mallit käyttävät viitekuvaa, pose-tietoja ja ääntä animaation luomiseen, Mocha ohittaa visuaaliset tulot kokonaan. Omnihuman-1, lanseerattu 4. helmikuuta, soveltaa diffuusiomuuntajaa ja poseeratun animaatiojärjestelmää. Järjestelmää koulutettiin yli 19 000 tuntia videota, ja sitä sovelletaan luokittelijavapaa ohjeita realismin ja monimuotoisuuden parantamiseksi.

mocha sitä vastoin käyttää täysin generatiivista putkilinjaa. Se käsittelee sekä rungon että kasvojen liikettä käyttämällä vain puhe-ja tekstin ilmastointia, ilman ulkoisia visuaalisia ankkureita. Tämä viitevapaa malli poistaa monimutkaisten kameran asetusten tai yksityiskohtaisen liikkeen skriptin tarpeen, mikä tarjoaa tekijöille virtaviivaisen polun synteettiseen tarinankerrontaan. Mallissa on myös ei-autoregressiivinen dekoodaus, parantamalla tehokkuutta ennustamalla täydelliset liikkeen kehykset rinnakkain yhden askeleen sijaan. Tämä jättää kysymyksiä sen yleistymiskapasiteetista, vaikka suorituskyvyn vertailuarvot viittaavat korkealaatuisiin tuloksiin jopa näkymättömillä tiedoilla.

kasvojen realismi älypuhelimien kautta: kiitotien vaihtoehtoinen reitti

, kun taas mocha rakentaa kokonaisia kohtauksia tyhjästä, muut järjestelmät pettävät luomista aiheuttamaan realismiin. Lokakuussa 2024 Runway julkaisi Act-One-ominaisuuden, jonka avulla käyttäjät voivat tallentaa omat kasvoilmaisunsa älypuhelimen avulla ja kartoittaa nämä esitykset animoituihin merkkeihin. Tämä ohittaa perinteisen liikkeen sieppauksen ja on integroitu kiitotien videontuotantomalleihin. Se olettaa kuitenkin, että käyttäjä on valmis suorittamaan kohtauksen. Mocha ei vaadi suorituskykyä. Se tuottaa ilmaisun ja liikkumisen pelkästään tekstin kehotuksista.

tällä erottelulla on merkitystä. Kiitotien työkalut on optimoitu luovaan hallintaan ja fyysisiin panoksiin juurtuneisiin realismiin. Mocha automatisoi suorituskyvyn luomalla merkkejä, jotka voivat toimia skriptejä itsenäisesti. Se sopii erityisesti narratiiviseen raskaaseen sisältöön, kuten selitysvideoihin, digitaalisiin vuoropuheluhakemuksiin ja ääniohjattuun tarinankerrontaan, joissa kameran asetukset ovat epäkäytännöllisiä.

Mocha-sijoittaminen AI-videomaisemaan

31. maaliskuuta-vain yhden päivän kuluttua Mocha-paperista-rividi-malli-malli-malli-maaliskuun sen jälkeen. Gen-4 tukee kohtaustason kehotusta, dynaamisia kameran polkuja, valaistuksen hallintaa ja reaaliaikaista palautetta visuaalisista muokkauksista. Näiden ominaisuuksien avulla luojat voivat rakentaa kohtauksia tarkemmin, mutta ne nostavat myös laitteistovaatimuksia korkean resoluution renderoinnista.

Gen-4 virtaviivaistaa kuinka käyttäjät koordinoivat erilaisia kohtauskomponentteja”ja yhdistävät aikaisemmat työkalut, kuten Act-One yhdeksi työnkulkulle. Luojat, jotka pyrkivät toistamaan studiotason elokuvan, Gen-4 tarjoaa yksityiskohtaiset visuaaliset kontrollit-BPU: n poikkeus. Matalakiilinen luominen ei tarjoa kameran viritystä tai valaistusta, mutta tarjoaa kertomuksen koheesiota ilman laajaa kehotusta tekniikkaa. Malli, joka on suunniteltu lisäämään kehittäjien ja pienempien studioiden saatavuutta.

mocha erottaa itsensä keskittymällä suorituskykyyn ja vuoropuheluun. Sen sijaan, että rakennettaisiin ympäristöjä tai elokuvamaista kiillotusta, se keskittyy luonteen käyttäytymiseen, toimitukseen ja emotionaaliseen ilmaisuun-kaikki käsikirjoituksesta ja äänestä.

Mochan rooli Meta: n laajemmassa AI-strategiassa

Mochan kehitys heijastaa Meta: n laajentuvaa keskittymistä generatiivisiin sisältötyökaluihin. Syyskuussa 2024 yritys esitteli AI-dubbing-työkalun , joka pystyy automaattisesti kääntämään ja synkronointiin. Järjestelmä ylläpitää äänen ja huulten liikkeen synkronointia kielten välillä. Tese-virtuaaliprofiilit voivat lähettää sisältöä, olla vuorovaikutuksessa käyttäjien kanssa ja simuloida vaikuttajatoimintaa. Ajatuksena on täyttää alustot, joissa on AI-ohjattuja hahmoja, jotka hämärtävät viihteen ja käyttäjän sitoutumisen välistä linjaa.

Sillä välin johtajuus muuttuu.