ウォータールー大学の研究者と協力して、

メタは、カメラ、参照画像、またはモーションキャプチャを必要とせずに完全にアニメーション化された音声同期されたキャラクターを生成するAIシステムを導入しました。 「映画グレードのキャラクターのアニメーション」は、音声録音やスクリプトから、顔の表現、ジェスチャー、ターンテイキングの対話など、シーン全体を構築します。モデルは、a 3月30日に公開された研究論文で導入されました。このモデルは、キーフレームを音声リズムに合わせることにより、音声ビデオウィンドウの注意と呼ばれるモジュールを備えています。また、共同音声テキストトレーニング戦略を使用して、シーンの複数のスピーカーで感情とキャラクターのコンテキストをキャプチャします。マルチキャラクターサポートにより、各キャラクターのタイミングとジェスチャーがターンテイキングロジックによって通知される前後の会話が可能になります。そのパフォーマンスを評価するために、チームはモカベンチを開発しました。ベンチマークスイートテスト同期精度、表現力のある動き、感情的な忠実度を開発しました。

モデルは、sync-c(sync conesture)、fid(sync censetion)、fid(frechet inception distranggion)、experifical lassifical spuracyなどのメトリックなどの以前の方法を上回ります。 **補助信号に依存することなく、テキストとスピーチから直接文字を生成します**。これがより映画のようなデモです。 pic.twitter.com/mnfvhrsjba

– cong wei(@congwei1230) 4月1日、2025年

BytedanceのOmnihuman-1のようなモデルは、参照画像を使用し、データをポーズ、オーディオを使用してアニメーションを生成する場合、Mochaは視覚入力を完全にスキップします。 2月4日に発売されたOmnihuman-1は、拡散トランスとポーズガイド付きアニメーションシステムを適用します。このシステムは、19,000時間以上のビデオでトレーニングされ、分類器のないガイダンスを適用してリアリズムと多様性を改善します。

Mochaは、完全に生成されたパイプラインを使用します。外部の視覚的なアンカーなしで、音声とテキストコンディショニングのみを使用して、身体と顔の動きを処理します。このリファレンスフリーの設計により、複雑なカメラのセットアップや詳細なモーションスクリプトの必要性が削除され、作成者に合成ストーリーテリングへの合理化されたパスを提供します。また、このモデルは、非自動性のデコードを特徴としており、一度に1つのステップではなく並行してフルモーションフレームを予測することで効率を向上させます。パフォーマンスベンチマークは、目に見えないデータを使用しても高品質の結果を示唆しています。

スマートフォンを介したフェイシャルリアリズム:runwayの代替ルート

は、モカがシーン全体をゼロから構築します。 2024年10月、RunwayはAct-Oneをリリースしました。これは、ユーザーがスマートフォンを使用して自分の表情を録音し、それらのパフォーマンスをアニメーション文字にマッピングできる機能です。これにより、従来のモーションキャプチャをバイパスし、Runwayのビデオ生成モデルに統合されています。

Act-Oneは、さまざまなアニメーションスタイルをサポートし、プロのギアなしでクリエイターがミクロ発現、目の動き、感情的な微妙さをアニメーション化できるようにします。ただし、ユーザーがシーンを実行する意思があると想定しています。モカにはパフォーマンスは必要ありません。テキストプロンプトだけからの表現と動きを生成します。

この区別は重要です。 Runwayのツールは、物理的な入力に根ざした創造的なコントロールとリアリズムのために最適化されています。 Mochaはパフォーマンスを自動化し、独立してスクリプトを実行できるキャラクターを作成します。説明ビデオ、デジタルダイアログシーン、カメラのセットアップが非現実的なものである音声駆動型のストーリーテリングなどの物語が多いコンテンツに特に適しています。 Gen-4は、視覚編集のためのシーンレベルのプロンプト、ダイナミックカメラパス、照明制御、リアルタイムフィードバックをサポートしています。これらの機能により、クリエイターはより精度のあるシーンを構築できますが、高解像度レンダリングのハードウェア需要も高めます。

Gen-4は、ユーザーがさまざまなシーンコンポーネントを調整する方法を合理化し、ACT-Oneのような以前のツールを単一のワークフローにマージします。低い駆動の作成は、カメラの調整を提供しません開発者や小規模なスタジオのアクセシビリティを向上させるように設計されたオープンソースビデオモデル。環境や映画のようなポリッシュを構築するのではなく、キャラクターの行動、配信、感情的な表現に集中します。すべての脚本と声から。 2024年9月、会社 ai dubbing tool

一方、リーダーシップは変化しています。

リサーチペーパーとしてのモカの公開にもかかわらず、チームはモデルが公然と利用可能になるか、メタの消費者向けツールに統合されるかを発表していません。今のところ、それは、スクリプトベースのキャラクターアニメーションが近い将来どのように見えるかのプロトタイプとして存在します。