Meta, we współpracy z naukowcami z University of Waterloo, wprowadził system AI, który generuje w pełni animowane, synchronizowane mowy, bez wymagania aparatu, obrazów odniesienia lub przechwytywania ruchu.
System, o nazwie MOCHA artykuł badawczy opublikowany 30 marca .
Mocha definiuje nowe zadanie porównawcze, wywołuje rozmowy: generowanie wyników pełnego body z audio i tekstu. Model zawiera moduł zwany uwagą okna mowy-video, który zapewnia synchronizację między dźwiękiem a animacją poprzez wyrównanie klatek kluczowych do rytmu mowy. Wykorzystuje również wspólną strategię treningu tekstu mowy, aby uchwycić emocje i kontekst postaci w wielu głośnikach w scenie.
mocha jest zaprojektowany dla Izolatora. Obsługa wielu znaków umożliwia rozmowy w przód i w plecy, w których czas i gest każdej postaci są informowane przez logikę zwrotu. Aby ocenić swoją wydajność, zespół opracował Mocha-Bench, dokładność synchronizacji syntezowego zestawu apartamentu, ruch ekspresyjny i wierność emocjonalna.
Model przewyższa poprzednie metody, takie jak EMO i Hallo-3 w Metrykach, takich jak synchronizacja-C (pewność siebie), FID (odległość Fréchet Inception) i Emotional Clasification Docational. Mocha ** generuje znaki bezpośrednio z tekstu i mowy **, nie polegając na jakichkolwiek sygnałach pomocniczych. Oto bardziej filmowa demo. pic.twitter.com/mnfvhrsjba
-cong wei (@congwei1230) 1 kwietnia 2025
Tam, gdzie modele takie jak Omnihuman-1 Bytetedance używają obrazu referencyjnego, pozuj dane i dźwięk do generowania animacji, Mocha całkowicie pomija wizualne wejścia. Omnihuman-1, wprowadzony na rynek 4 lutego, stosuje transformator dyfuzyjny i system animacji pod przewinieniem.
Łączy dźwięk z pozami map termicznych i wariaccyjnym autoencoderem 3D (VAE), oferując drobną kontrolę gestu. System został przeszkolony przez ponad 19 000 godzin wideo i stosuje wytyczne bez klasyfikatora w celu poprawy realizmu i różnorodności.
Mocha, natomiast wykorzystuje w pełni generatywny rurociąg. Obsługuje ruch ciała i twarzy za pomocą tylko kondycjonowania mowy i tekstu, bez zewnętrznych kotwic wizualnych. Ta bezwładna konstrukcja usuwa potrzebę złożonych konfiguracji kamery lub szczegółowych skryptów ruchowych, oferując twórcom usprawnioną ścieżkę do syntetycznego opowiadania historii. Model zawiera również nieautoregresywne dekodowanie, poprawiając wydajność poprzez przewidywanie pełnych ramek ruchu równolegle zamiast jednego kroku.
W szczególności papier Mocha nie ujawnia wielkości danych treningowych, w przeciwieństwie do obszernego zestawu danych Omnihumana. Pozostawia to pytania dotyczące jego zdolności uogólnienia, chociaż badania odniesienia wydajności sugerują wyniki wysokiej jakości nawet przy niewidzialnych danych.
realizm twarzy za pomocą smartfonów: alternatywna trasa wybiegu
Podczas gdy Mocha konstruuje całe sceny od zera, inne systemy stawiają na twórca. W październiku 2024 r. Runway wydał ACT-One, funkcję, która pozwala użytkownikom nagrywać własne wyrazy twarzy za pomocą smartfona, a następnie mapować te występy na animowane postacie. Obejmuje to tradycyjne przechwytywanie ruchu i jest zintegrowane z modelem generowania wideo Runway.
ACT-One obsługuje różne style animacji i pozwala twórcom animować mikro-ekspresji, ruchy gałek ocznych i subtelności emocjonalne bez profesjonalnego sprzętu. Zakłada się jednak, że użytkownik jest gotów wykonać scenę. Mocha nie wymaga wydajności. Generuje sam wyrażenie i ruch z podpowiedzi tekstowych.
To rozróżnienie ma znaczenie. Narzędzia pasa startowego są zoptymalizowane pod kątem kreatywnej kontroli i realizmu zakorzenionego w danych fizycznych. Mocha automatyzuje wydajność, tworząc postacie, które mogą niezależnie odgrywać skrypty. Jest to szczególnie odpowiednie do zawartości ciężkich narracyjnych, takich jak filmy wyjaśniające, cyfrowe sceny dialogowe i oparta na głosie opowiadanie, w których konfiguracja aparatów jest niepraktyczna.
Pozycjonowanie Mocha w krajobrazie wideo AI
w dniu 31 marca. Gen-4 obsługuje podpowiedź na poziomie sceny, dynamiczne ścieżki aparatu, kontrolę oświetlenia i informacje zwrotne w czasie rzeczywistym dla edycji wizualnych. Funkcje te pozwalają twórcom budować sceny z większą precyzją, ale podnoszą również wymagania sprzętowe w zakresie renderowania w wysokiej rozdzielczości.
Gen-4 usprawniają, w jaki sposób użytkownicy koordynują różne komponenty sceny „i łączą wcześniejsze narzędzia, takie jak ACT-One w jednym przepływie pracy. Dla twórców dążących do replikacji studyjnej kinematografii na poziomie studyjnym, inicjatywa, inicjatyzowanie, inicjatyzowanie, inicjatyzuj, inicjatyzują, inicjatyzują, priwizowane, inicjatyczne. Niskie frygacje nie oferuje strojenia lub oświetlenia, ale zapewnia kohezję narracyjną bez obszernej inżynierii. Model wideo open source zaprojektowany w celu zwiększenia dostępności programistów i mniejszych studiów.
Mocha wyróżnia się, koncentrując się na wydajności i dialogu. Zamiast budować środowiska lub kinowe polski, koncentruje się na zachowaniu postaci, dostawie i ekspresji emocjonalnej-ze scenariusza i głosu.
Rola Mochy w szerszej strategii AI Meta
Rozwój Mochy odzwierciedla rozszerzającą się koncentrację Meta. We wrześniu 2024 r. Firma Wprowadziło narzędzie dubbingowe AI To może automatycznie tłumaczyć wideo i synchronizować się pierwotną. System utrzymuje synchronizację ruchu głosu i warg między językami.
Meta bada także integrację osobowości generowanych przez AI na swoich platformach społecznościowych. Profile wirtualne TESE mogą publikować treść, wchodzić w interakcje z użytkownikami i symulować aktywność wpływową. Chodzi o to, aby wypełnić platformy postaciami opartymi na sztucznej inteligencji, które zacierają granicę między rozrywką a zaangażowaniem użytkowników.
Tymczasem przywództwo zmienia się. jelle pineau , główny badanie AI i LIGIZACJA LIGUKA LIGIOTU LIGIOTU LIGETU LIGIOTU LIGETUS LIFIKA SINGISE, jak Lama, ustąpi pod koniec maja. Podczas swojej kadencji Meta Advanced Generative AI zarówno do badań, jak i komercyjnych, w tym modele zasilania funkcji meta AI na platformach.
Pomimo publicznego wydania Mochy jako dokumentu badawczego, zespół nie ogłosił, czy model będzie otwarcie dostępny, czy zintegrowany z narzędziami Meta. Na razie stanowi prototyp tego, jak w najbliższej przyszłości mogłaby wyglądać animacja postaci oparta na skryptach-wygenerowane występy, żadnych aktorów ani kamer.