Meta, bekerja sama dengan para peneliti di University of Waterloo, telah memperkenalkan sistem AI yang menghasilkan karakter animasi penuh dan disinkronkan tanpa memerlukan kamera, gambar referensi, atau penangkapan gerak.
Sistem, Makalah penelitian yang diterbitkan 30 Maret .
Mocha mendefinisikan tugas benchmark baru yang disebut karakter berbicara: menghasilkan kinerja fullody dari audio dan teks. Model ini menampilkan modul yang dikenal sebagai perhatian jendela bicara-video, yang memastikan sinkronisasi antara audio dan animasi dengan menyelaraskan kerangka kunci dengan ritme ucapan. Ini juga menggunakan strategi pelatihan teks-teks bersama untuk menangkap konteks emosi dan karakter di banyak pembicara dalam sebuah adegan.
pic.twitter.com/mnfvhrsjba
-cong wei (@congwei1230) href=”https://twitter.com/congwei1230/status/1907087531746767336?ref_src=twsrc%5etfw”target=”_ blank”> April 2025
April 2025
April 1, 2025
blank 1 april
blank 1 april
Di mana model seperti Omnihuman-1 Bytedance menggunakan gambar referensi, berpose data, dan audio untuk menghasilkan animasi, Mocha melewatkan input visual sama sekali. Omnihuman-1, diluncurkan 4 Februari, menerapkan transformator difusi dan sistem animasi yang dipandu pose.
Menggabungkan audio dengan pose panas dan autoencoder variasional 3D (VAE), menawarkan kontrol gerakan berbutir halus. Sistem ini dilatih pada lebih dari 19.000 jam video dan menerapkan panduan bebas classifier untuk meningkatkan realisme dan keragaman.
Sebaliknya, mocha menggunakan pipa generatif sepenuhnya. Ini menangani gerak tubuh dan wajah hanya menggunakan pidato dan pengkondisian teks, tanpa jangkar visual eksternal. Desain bebas referensi ini menghilangkan kebutuhan untuk pengaturan kamera yang kompleks atau scripting gerak terperinci, menawarkan pembuat jalur yang ramping untuk mendongeng sintetis. Model ini juga memiliki decoding non-autoregresif, meningkatkan efisiensi dengan memprediksi kerangka gerak penuh secara paralel alih-alih satu langkah pada satu waktu.
Khususnya, kertas Mocha tidak mengungkapkan ukuran data pelatihannya, tidak seperti dataset Omnihuman yang luas. Ini menyisakan pertanyaan tentang kapasitas generalisasi, meskipun tolok ukur kinerja menunjukkan hasil berkualitas tinggi bahkan dengan data yang tidak terlihat.
realisme wajah melalui smartphone: rute alternatif landasan
Sementara mocha membangun seluruh adegan dari awal, sistem lain bertaruh pada realisme yang digerakkan kreator. Pada Oktober 2024, Runway merilis Act-One, fitur yang memungkinkan pengguna untuk merekam ekspresi wajah mereka sendiri menggunakan smartphone, kemudian memetakan kinerja tersebut ke karakter animasi. Ini melewati penangkapan gerak tradisional dan diintegrasikan ke dalam model pembuatan video landasan pacu.
Act-One mendukung berbagai gaya animasi dan memungkinkan pencipta untuk menghidupkan ekspresi mikro, gerakan mata, dan seluk-beluk emosional tanpa perlengkapan profesional. Namun, itu mengasumsikan pengguna bersedia melakukan adegan. Mocha tidak membutuhkan kinerja. Ini menghasilkan ekspresi dan gerakan dari permintaan teks saja.
Perbedaan ini penting. Alat Runway dioptimalkan untuk kontrol kreatif dan realisme yang berakar pada input fisik. Mocha mengotomatiskan kinerja, membuat karakter yang dapat memerankan skrip secara mandiri. Ini terutama cocok untuk konten naratif-berat seperti video penjelasan, adegan dialog digital, dan penceritaan yang digerakkan oleh suara di mana pengaturan kamera tidak praktis.
memposisikan mocha dalam lanskap video AI yang diperluas
pada 31 Maret-hanya suatu hari setelah koran mocha. Gen-4 mendukung dorongan tingkat adegan, jalur kamera dinamis, kontrol pencahayaan, dan umpan balik real-time untuk pengeditan visual. Fitur-fitur ini memungkinkan pencipta untuk membangun adegan dengan lebih presisi, tetapi mereka juga meningkatkan tuntutan perangkat keras untuk rendering resolusi tinggi.
Gen-4 merampingkan bagaimana pengguna mengoordinasikan komponen adegan yang berbeda”dan menggabungkan alat-alat sebelumnya seperti Act-One ke dalam alur kerja tunggal. Untuk pencipta yang bertujuan untuk mereplikasi sinematografi level studio, Gen-4 menawarkan detail-detail detail-detail detail-detail detail-detail detail-detail-detail-detail. Penciptaan gesekan rendah. Model video open-source yang dirancang untuk meningkatkan aksesibilitas bagi pengembang dan studio yang lebih kecil.
Mocha membedakan dirinya dengan berfokus pada kinerja dan dialog. Daripada membangun lingkungan atau polesan sinematik, ia berkonsentrasi pada perilaku karakter, pengiriman, dan ekspresi emosional-semua dari skrip dan suara.
peran Mocha dalam strategi AI Meta yang lebih luas
Pengembangan Mocha mencerminkan fokus yang memperluas Meta pada alat konten generatif. Pada bulan September 2024, perusahaan memperkenalkan alat dubbing ai yang canate yang secara otomatis _ _ blanko> memperkenalkan ai dubbing dubbing bahwa target secara otomatis=_ blanko”> memperkenalkan ai dubbing alat bahwa”_ blankoS secara otomatis”> memperkenalkan ai dubbing dubbing bahwa”target secara otomatis”aTOMOTOMATIED”> memperkenalkan ai dubbing dubbing bahwa”Target secara otomatis”Sistem ini mempertahankan sinkronisasi gerakan suara dan bibir di seluruh bahasa.
Meta juga mengeksplorasi integrasi persona yang dihasilkan AI pada platform sosialnya. Profil virtual dapat memposting konten, berinteraksi dengan pengguna, dan mensimulasikan aktivitas influencer. Idenya adalah untuk mengisi platform dengan karakter yang digerakkan AI yang mengaburkan batas antara hiburan dan keterlibatan pengguna.
Sementara itu, kepemimpinan bergeser. JOELLE-SOUROCE PINOUCE JOELLE-SOUTCE PINOUCE
Meskipun mocha merilis publik sebagai makalah penelitian, tim belum mengumumkan apakah model tersebut akan tersedia secara terbuka atau diintegrasikan ke dalam alat yang menghadap konsumen Meta. Untuk saat ini, itu berdiri sebagai prototipe dari seperti apa animasi karakter berbasis skrip dalam waktu dekat-pertunjukan yang dihasilkan secara penuh, tidak ada aktor atau kamera yang terlibat.