Meta hat in Zusammenarbeit mit Forschern der Universität von Waterloo ein AI-System eingeführt, das vollständig animierte, sprachsynchronisierte Zeichen erzeugt, ohne eine Kamera, Referenzbilder oder Motion Capture zu benötigen.”Movie-Grade-Charakteranimation”, konstruiert ganze Szenen-faciale Ausdrücke, Gesten und Dialog-nur einer Sprachaufnahme und einem Skript. Das Modell wurde in a Research Paper veröffentlicht, das am 30. März veröffentlicht wurde. Das Modell verfügt über ein Modul, das als Sprach-Video-Fensteraufmerksamkeit bezeichnet wird und die Synchronisation zwischen Audio und Animation gewährleistet, indem Keyframes auf Sprachrhythmus ausgerichtet werden. Es verwendet auch eine gemeinsame Sprach-Text-Trainingsstrategie, um in einer Szene den Emotions-und Charakterkontext über mehrere Sprecher zu erfassen. Die Unterstützung von Multi-Charakter ermöglicht Hin-und Her-Gespräche, bei denen das Timing und die Geste jedes Charakters durch die Logik der Drehung informiert werden. Um seine Leistung zu bewerten, entwickelte das Team Mocha-Bench, eine Synchronisierungstestgenauigkeit von Benchmark Suite, ausdrucksstarke Bewegung und emotionale Treue. ** generiert Zeichen direkt aus Text und Sprache **, ohne sich auf Hilfssignale zu verlassen. Hier ist eine filmische Demo. pic.twitter.com/mnfvhrsjba
-cong Wei (@congwei1230) April 1, 2025
Prompt-Based Storytelling, No Reference Input Needed
Wenn Modelle wie Bytedance’s Omnihuman-1 ein Referenzbild verwenden, Daten und Audio anstellen, um Animation zu generieren, überspringt Mokka visuelle Eingänge insgesamt. Omnihuman-1, der am 4. Februar eingeführt wurde, wendet ein Diffusionstransformator und ein posegesteuertes Animationssystem an. Das System wurde auf über 19.000 Stunden Video geschult und wendet eine klassifikatorfreie Anleitung an, um den Realismus und die Vielfalt zu verbessern. Es behandelt sowohl die Körper-als auch die Gesichtsbewegung nur mit Sprach-und Textkonditionierung ohne externe visuelle Anker. Dieses referenzfreie Design beseitigt die Notwendigkeit komplexer Kamera-Setups oder detailliertes Bewegungsskripting, das den Schöpfer einen optimierten Weg zum synthetischen Geschichtenerzählen bietet. Das Modell verfügt außerdem über nicht autoregressive Decodierung und verbessert die Effizienz, indem sie parallel anstelle von einem Schritt zu einem Schritt prognostiziert. Dies hinterlässt Fragen zu seiner Verallgemeinerungskapazität, obwohl Performance-Benchmarks auch mit unsichtbaren Daten hochwertige Ergebnisse legen. Im Oktober 2024 veröffentlichte Runway Act-One, eine Funktion, mit der Benutzer ihre eigenen Mimik mit einem Smartphone aufnehmen und diese Aufführungen dann auf animierte Zeichen zuordnen können. Dies umgeht die traditionelle Motion-Capture und wird in die Videogenerierungsmodelle von Runway integriert.
Act-One unterstützt eine Vielzahl von Animationsstilen und ermöglicht es den Schöpfer, Mikro-Expressionen, Augenbewegungen und emotionale Feinheiten ohne professionelle Ausrüstung zu animieren. Es wird jedoch angenommen, dass der Benutzer bereit ist, die Szene auszuführen. Mokka benötigt keine Leistung. Es erzeugt Ausdruck und Bewegung allein aus Texteingabeaufforderungen.
Diese Unterscheidung ist wichtig. Die Tools von Runway sind für kreative Kontrolle und Realismus optimiert, die in physischen Eingaben verwurzelt sind. Mokka automatisiert die Leistung und erstellt Charaktere, die Skripte unabhängig auswirken können. Es eignet sich besonders für narrativen Inhalte wie Erklärungsvideos, digitale Dialogszenen und sprachgesteuerte Geschichtenerzählungen, bei denen Kamera-Setups unpraktisch sind. Gen-4 unterstützt Szenenebene, dynamische Kamerapfade, Beleuchtungssteuerung und Echtzeit-Feedback für visuelle Änderungen. Diese Funktionen ermöglichen es den Ersteller, Szenen mit Präzision zu erstellen, sie erhöhen jedoch auch die Hardwareanforderungen für hochauflösende Rendering. Niedrigfeindliche Erstellung. Open-Source-Videomodell, das die Zugänglichkeit für Entwickler und kleinere Studios erhöht. Anstatt Umgebungen oder filmische Polituren zu bauen, konzentriert es sich auf das Charakterverhalten, die Abgabe und den emotionalen Ausdruck-alles aus einem Skript und einer Stimme. Im September 2024 wurde das Unternehmen Einführte ein AI-Subbing-Werkzeug , das automatisch übersetzt wird. Das System hält die Synchronisation der Sprach-und Lippenbewegung über Sprachen hinweg. Virtuelle TESE-Profile könnten Inhalte veröffentlichen, mit Benutzern interagieren und die Influencer-Aktivität simulieren. Die Idee ist, Plattformen mit KI-gesteuerten Charakteren zu bevölkern, die die Grenze zwischen Unterhaltung und Benutzern Engagement verwischen.