Bytedance hat Omnihuman-1 vorgestellt, ein System, das glaubwürdige menschliche Videoinhalte aus nur einem Referenzbild und begleitendem Audio herstellen kann. Synthese eine breite Palette von Videoausgängen. Die Autoren erklären ihren Ansatz in der Forschungsarbeit omnihuman-1: Überdenken der Skalierung von einstufigen konditionierten menschlichen Animationsmodellen überdenken , um zu klären, wie mehr als 19.000 Stunden Trainingsmaterial in den Diffusionstransformator-Kern einfließen. 

Mischungsdaten und bemerkenswerte Beispiele

omnihuman-1 basieren auf einer DID-Architektur (Diffusion Transformator), einem Modell, das die Denoising-Fähigkeiten von Diffusionsmodellen kombiniert mit der Sequenzhandhabungseffizienz von Transformatoren. Ein mehrstufiger Trainingsprozess, der die Erzeugung der menschlichen Bewegung schrittweise verfeinert. Es verwendet ein kausales 3D Variational AutoCoder (3D VAE) , um Videokassquenzen in einen komprimierten latenten Raum zu codieren, wodurch eine effiziente Verarbeitung ermöglicht wird, während die zeitliche Kohärenz vorliegt.

Das Modell integriert mehrere Konditionierungssignale-Text, Audio und Pose-Nebel Classifier-freie Anleitung (CFG) Um Realismus und Einhaltung von Eingabestellungen auszugleichen. Die Architektur enthält auch einen Pose-Guider, der Bewegungshitzemaps für feinkörnige Kontrolle codiert, während ein Aussehenscodierer die Identitäts-und Hintergrunddetails aus einem Referenzbild unter Verwendung eines modifizierten MMDIT (maskierter Modellierungsdiffusionstransformator) extrahiert.

omnihuman verfolgt eine „Omni-Konditions-Trainingsstrategie“, um Text-, Audio-und Pose-Signale in einen einzelnen Workflow zu verschmelzen. Audio ist mit WAV2VEC vorgezogen, während Referenzbilder durch einen Variationsautoencodierer (VAE)./p>

In dem Papier erklärt die Autoren: „Omnihuman erzeugt hochrealistische Videos mit einem beliebigen Seitenverhältnis und dem Körperanteil und verbessert die Gestenerzeugung und die Objektinteraktion gegenüber vorhandenen Methoden erheblich, da die Daten skaliert werden, die durch OMNII erfasst wurden Bedingungen Training.”

Tests verstärken diese Behauptungen, einschließlich streikender Demonstrationen wie Eine fiktive Taylor Swift-Leistung und a Clip, der seltsame Gesten um ein Weinglas enthüllt , die sowohl die überzeugende Natur des Ausgangs als auch die der Ausgabe zeigen Macken, die mit bestimmten Posen entstehen. Leitende spezielle
Modelle sowohl in Porträt-als auch in Körperanimationsaufgaben unter Verwendung eines einzelnen Modells”, so die Forscher, die die folgende Vergleichstabelle teilten. sadtalker und hallo-3 -In mehreren Metriken, einschließlich FID, FVD, IQA und Sync-C.

Source: Vorteilhaft: Zu viel Audio allein verengt die Bewegungsbereich, während eine Überbetonung der Pose zu starre Gesten führt. Hier ist ein weiteres Beispiel. Die berüchtigte Nonstop-Trumporbidgen2024-Debatte Livestream aus dem letzten Jahr unterstrich sich, wie ein solcher Inhalt sowohl die Neugier als auch die Bedenken hinsichtlich der Authentizität wecken kann. p> omnihuman-1 landet in einem Klima, in dem synthetische Medien die Aufmerksamkeit von politischen Entscheidungsträgern und Unternehmen erhöht. Die Sicherheitsverpflichtungen des Weißen Hauses spiegeln ein breiteres Bestreben wider, DeepFake Missbrauch zu beheben, während die obligatorische Kennzeichnung von KI-Inhalten von Meta das Engagement der wichtigsten Plattformen mit dem Problem signalisiert.

Letztes Jahr, Die erweiterte Autorität der FTC , um AI-bezogene Dokumente anzufordern, erhöhten die Einsätze für Transparenz. Google hat seine KI-Wassermarking-Technologie Synthid erweitert, um Text und Video mit AI-generierter Ebene einzubeziehen. Im vergangenen Dezember kündigte Meta Meta Video Seal an, ein neues Open-Source-Tool, das für Videos mit Wasserzeichen generiert wurde. Video Seal einbettet unsichtbar und dennoch robuste Wasserzeichen, die durch Änderungen, Komprimierung und Teilen bestehen und den Inhalt nachverfolgen und authentifizieren können. Wasserzeichen unterstreicht einen wachsenden Fokus auf Authentizität. Wasserzeichen. v=V_ZjvRmHZOI”>a pretend TED Talk and a deepfake Einstein lecture, all illustrating OmniHuman-1’s weitreichende Bewegungskapazität-und gelegentliche Macken beim Umgang mit Händen oder Requisiten. Synthetische Kreationen, die unbeabsichtigten Schaden verursachen. Die Experimente des Trainingsverhältnisses bestätigen, dass das Mischen starker und schwacher Signale-Gegenwart, Audio und Text-eine bessere Leistung erscheint, was in niedrigeren FID-und FVD-Werten offensichtlich ist als die von Sadtalker oder Hallo-3. Ein KI-gesteuerter Tool, das für statische Bilder ausgelegt ist, indem realistische 3D-Bewegungskoeffizienten aus Audioeingängen erzeugt werden. Durch die Analyse des bereitgestellten Audios prognostiziert es entsprechende Gesichtsbewegungen und ermöglicht die Erstellung von lebensechten sprechenden Animationen aus einem einzelnen Bild. Dieser Ansatz ermöglicht die Erzeugung stilisierter, audioorientierter sprechender Gesichtsanimationen, die den Realismus und die Ausdrucksfähigkeit der Ausgabe verbessern. Dynamische und realistische Animationen. Es verwendet ein vorgezogenes transformatorbasiertes Videogenerativmodell, das in verschiedenen Szenarien starke Generalisierungsfunktionen zeigt. Tools, die sich schnell zwischen Unterhaltung, Bildung und potenziell sensiblen Inhalten verschieben können, während Regulierungsbehörden und Tech-Spieler gleichermaßen von DeepFake-Entwicklungen wachsam sind.

Categories: IT Info