Bytedance har avduket Omnihuman-1, et system som kan lage troverdig menneskelig videoinnhold fra bare ett referansebilde og tilhørende lyd.

Modellen fusjonerer flere kondisjonssignaler-tekst, lyd og posit Syntetiser et bredt spekter av videoutganger. Forfatterne forklarer sin tilnærming i forskningsoppgaven Omnihuman-1: Rethinking Scaling-Up of One-Stage Condited Human Animation Models , Avklarer hvordan mer enn 19 000 timer med treningsopptak fôrer til diffusjonstransformatorkjernen. 

blandingsdata og bemerkelsesverdige eksempler

Omnihuman-1 er bygget på en diffusjonstransformator (DIT) arkitektur, en modell som kombinerer denoising-evnen til diffusjonsmodeller med sekvenshåndteringseffektiviteten til transformatorer.

En flertrinns treningsprosess som gradvis foredler generering av menneskelig bevegelse. Den bruker en årsakssammenheng 3D-variasjons autoencoder (3D VAE) for å kode videosekvenser til et komprimert latent rom, noe som gir effektiv prosessering mens bevarende temporal koherens.

Modellen integrerer flere kondisjoneringssignaler-Tekst, lyd og positur-blid

Kilde: byTedance

Niktlik Tidligere modeller som stolte på streng datafiltrering, Omnihumans Omni-Conditions-treningsstrategi sikrer at mangfoldig treningsdata bidrar til naturalistisk gestsyntese, objektinteraksjoner og tilpasningsdyktige aspektforhold, og skiller det fra tidligere posedrevne og lydkondisjonerte humane animasjonsmodeller.

Omnihuman vedtar en”Omni-Conditions-treningsstrategi”for å smelte sammen tekst, lyd og utgjøre signaler i en enkelt arbeidsflyt. Lyden er forbehandlet med WAV2Vec, mens referansebilder reiser gjennom en variasjons autoencoder (VAE)./p>

I papiret oppgir forfatterne, “Omnihuman genererer svært realistiske videoer med ethvert aspektforhold og kroppsandel, og forbedrer gestasjonsgenerering og objektinteraksjon betydelig over eksisterende metoder, på grunn av dataskalering som er aktivert av Omni-Forholdstrening.”

Tester forsterker disse påstandene, inkludert slående demonstrasjoner som en fiktiv taylor swift ytelse og a klipp som avslører rare gester rundt et vinglass , som viser både den overbevisende naturen til produksjonen og Quirks som oppstår med visse positurer.

[innebygd innhold]

Benchmarks og ytelsesindikatorer

“Omnihuman demonstrerer overlegen ytelse sammenlignet med Ledende spesialiserte
modeller i både portrett-og kroppsanimasjonsoppgaver ved hjelp av en enkelt modell”, ifølge forskerne som delte følgende sammenligningstabell.

Ablasjonsstudier indikerer Omnihuman-1 outshines tidligere metoder-som < sadtalker og hallo-3 —I flere beregninger, inkludert FID, FVD, IQA og Sync-C.

Source: Bytedance

et balansert 50% forhold for både lyd og pose under trening viste Gunstig: For mye lyd alene smalere bevegelsesområde, mens overvekt på positur fører til stive gester. Her er et annet eksempel.

[innebygd innhold]

Denne fordelen med å lage dynamiske sekvenser passer inn i pågående debatter om AI-videoproduksjon og dypfakes, spesielt ettersom publikum gransket syntetisk generert visuals. Den beryktede nonstop Trumporbiden2024-debatten livestream fra i fjor understreket hvordan slikt innhold kan vekke både nysgjerrighet og bekymring for ekthet.

bransjekontekst, regulatoriske trekk og fremtidsutsikter

Omnihuman-1 lander i et klima der syntetiske medier trekker økende oppmerksomhet fra beslutningstakere og selskaper. Sikkerhetsforpliktelser i Det hvite hus gjenspeiler en bredere drivkraft for å adressere misbruk av Deepfake, mens Metas obligatoriske merking av AI-innholdssignaler hovedplattformers engasjement med problemet.

i fjor, FTCs utvidede autoritet For å be om AI-relaterte dokumenter hevet innsatsen for åpenhet. Google har utvidet sin AI-vannmerke-teknologi, Synthid, til å omfatte AI-generert tekst og video. Og i desember i fjor kunngjorde Meta Meta Video Seal, et nytt open source-verktøy designet for å vannmerke AI-genererte videoer. Video Seal innebærer usynlige, men likevel robuste vannmerker som vedvarer gjennom redigeringer, komprimering og deling, noe Vannmerke understreker et økende fokus på autentisitet.

Meta merker allerede AI-genererte bilder med”forestilt med AI”for å dempe feilinformasjon, men dette fungerer bare hvis de underliggende deteksjonsmekanismene fungerer eller hvis AI-genererte bildevideoer er Vannmerket. v=v_zjvrmhzoi”> en late som ted tale og a deepfake einstein Bredende bevegelseskapasitet-og sporadiske påfunn når de håndterer hender eller rekvisitter.

[innebygd innhold]

Observatører sier at dette understreker hvorfor bredere diskusjon av AI-vannmerker og deteksjonsverktøy er avgjørende for å beholde Syntetiske kreasjoner fra å forårsake utilsiktet skade.

Ved å tilby høykvalitets bevegelse og fleksible aspektforhold, skiller Omnihuman-1 bortsett fra tidligere avhengighet av smalt filtrerte datasett. Treningsforholdseksperimentene bekrefter at blanding av sterke og svake signaler-poster, lyd og tekst-er bedre ytelse, noe som er tydelig i lavere FID-og FVD-score enn Sadtalker eller Hallo-3.

Sadtalker er IS IS IS IS IS IS IS IS Et AI-drevet verktøy designet for å animere statiske bilder ved å generere realistiske 3D-bevegelseskoeffisienter fra lydinnganger. Ved å analysere den medfølgende lyden, spår den tilsvarende ansiktsbevegelser, noe som muliggjør oppretting av naturtro snakkende animasjoner fra et enkelt bilde. Denne tilnærmingen muliggjør generering av stiliserte, lyddrevne snakkende ansiktsanimasjoner, og forbedrer realismen og ekspressiviteten til utgangen.

Hallo-3 er en avansert portrettbilde-animasjonsmodell som bruker diffusjonstransformatornettverk for å produsere høyt Dynamiske og realistiske animasjoner. Den benytter en forhåndsberegnet transformatorbasert videosenerativ modell, som viser sterke generaliseringsfunksjoner på tvers av forskjellige scenarier.

Enten det er realistiske co-talesbevegelser eller tegneserie-lignende karakterer, viser den nye bytance-modellen en vei fremover for AI Verktøy som raskt kan skifte mellom underholdning, utdanning og potensielt sensitivt innhold, alt mens regulatorer og teknologiske spillere forblir våken av dypfakeutviklingen.