Bytedance Omnihuman-1 AI-modell kan lage video-dypfaks fra bare ett bilde

Bytedance har avduket Omnihuman-1, et system som kan lage troverdig menneskelig videoinnhold fra bare ett referansebilde og tilhørende lyd.

Modellen fusjonerer flere kondisjonssignaler-tekst, lyd og posit Syntetiser et bredt spekter av videoutganger. Forfatterne forklarer sin tilnærming i forskningsoppgaven Omnihuman-1: Rethinking Scaling-Up of One-Stage Condited Human Animation Models , Avklarer hvordan mer enn 19 000 timer med treningsopptak fôrer til diffusjonstransformatorkjernen.

blandingsdata og bemerkelsesverdige eksempler

Omnihuman-1 er bygget på en diffusjonstransformator (DIT) arkitektur, en modell som kombinerer denoising-evnen til diffusjonsmodeller med sekvenshåndteringseffektiviteten til transformatorer.

En flertrinns treningsprosess som gradvis foredler generering av menneskelig bevegelse. Den bruker en årsakssammenheng 3D-variasjons autoencoder (3D VAE) for å kode videosekvenser til et komprimert latent rom, noe som gir effektiv prosessering mens bevarende temporal koherens.

Modellen integrerer flere kondisjoneringssignaler-Tekst, lyd og positur-blid

Benchmarks og ytelsesindikatorer

“Omnihuman demonstrerer overlegen ytelse sammenlignet med Ledende spesialiserte
modeller i både portrett-og kroppsanimasjonsoppgaver ved hjelp av en enkelt modell”, ifølge forskerne som delte følgende sammenligningstabell.

Ablasjonsstudier indikerer Omnihuman-1 outshines tidligere metoder-som < sadtalker og hallo-3 —I flere beregninger, inkludert FID, FVD, IQA og Sync-C.

et balansert 50% forhold for både lyd og pose under trening viste Gunstig: For mye lyd alene smalere bevegelsesområde, mens overvekt på positur fører til stive gester. Her er et annet eksempel.

Denne fordelen med å lage dynamiske sekvenser passer inn i pågående debatter om AI-videoproduksjon og dypfakes, spesielt ettersom publikum gransket syntetisk generert visuals. Den beryktede nonstop Trumporbiden2024-debatten livestream fra i fjor understreket hvordan slikt innhold kan vekke både nysgjerrighet og bekymring for ekthet.

bransjekontekst, regulatoriske trekk og fremtidsutsikter

Omnihuman-1 lander i et klima der syntetiske medier trekker økende oppmerksomhet fra beslutningstakere og selskaper. Sikkerhetsforpliktelser i Det hvite hus gjenspeiler en bredere drivkraft for å adressere misbruk av Deepfake, mens Metas obligatoriske merking av AI-innholdssignaler hovedplattformers engasjement med problemet.

i fjor, FTCs utvidede autoritet For å be om AI-relaterte dokumenter hevet innsatsen for åpenhet. Google har utvidet sin AI-vannmerke-teknologi, Synthid, til å omfatte AI-generert tekst og video. Og i desember i fjor kunngjorde Meta Meta Video Seal, et nytt open source-verktøy designet for å vannmerke AI-genererte videoer. Video Seal innebærer usynlige, men likevel robuste vannmerker som vedvarer gjennom redigeringer, komprimering og deling, noe Vannmerke understreker et økende fokus på autentisitet.

Bytedance Omnihuman-1 AI-modell kan lage video-dypfaks fra bare ett bilde

Published by All Things Windows on February 4, 2025

blandingsdata og bemerkelsesverdige eksempler

Benchmarks og ytelsesindikatorer

bransjekontekst, regulatoriske trekk og fremtidsutsikter

IT Info

Hvordan deaktivere Chrome Auto Update i Windows 11 og 10

IT Info

Windows 11 Build 22635.4870 (KB5050087) bringer Lock Screen-endringer i Beta Channel

IT Info

Bygge en spill-PC med AMD Ryzen 7 9800x3d: Hva kan jeg forvente?

Bytedance Omnihuman-1 AI-modell kan lage video-dypfaks fra bare ett bilde

Published by All Things Windows on February 4, 2025

blandingsdata og bemerkelsesverdige eksempler

Benchmarks og ytelsesindikatorer

bransjekontekst, regulatoriske trekk og fremtidsutsikter

Related Posts

IT Info

Hvordan deaktivere Chrome Auto Update i Windows 11 og 10

IT Info

Windows 11 Build 22635.4870 (KB5050087) bringer Lock Screen-endringer i Beta Channel

IT Info

Bygge en spill-PC med AMD Ryzen 7 9800x3d: Hva kan jeg forvente?