meta, en colaboración con investigadores de la Universidad de Waterloo, ha introducido un sistema de IA que genera caracteres totalmente animados, sincronizados del habla sin requerir una cámara, imágenes de referencia o captura de movimiento.
El sistema, Documento de investigación publicado el 30 de marzo .
mocha define una nueva tarea de referencia que llama características que habla: generar actuaciones de cuerpo completo del audio y texto. El modelo presenta un módulo conocido como atención de la ventana del video-video, que garantiza la sincronización entre el audio y la animación al alinear los fotogramas clave al ritmo del habla. También utiliza una estrategia conjunta de entrenamiento de texto del habla para capturar el contexto de la emoción y los personajes en múltiples oradores en una escena.
moca está diseñado para el flujo narrador en lugar de aislamiento. Su soporte multi-caracteres permite conversaciones de ida y vuelta, donde el tiempo y el gesto de cada personaje están informados por la lógica de toma de turnos. Para evaluar su desempeño, el equipo desarrolló Mocha Bench, una precisión de sincronización de prueba de suite de referencia, movimiento expresivo y fidelidad emocional.
El modelo supera los métodos anteriores como EMO y Hallo-3 a través de métricas como Sync-C (Sync Confidence), FID (FRÉCHET DISTACE) y la clasificación emocional de la acuabilidad. ** Genera caracteres directamente de texto y discurso ** sin confiar en ninguna señal auxiliar. Aquí hay una demostración más cinematográfica. pic.twitter.com/mnfvhrsjba
-cong wei (@congwei1230) 1 de abril, 2025
Storyteling, no referencia en blanco”> 1 de abril, 2025
Stremado, no es decir, la entrada de referencia en blanco”/Strong.
Donde modelos como Omnihuman-1 de Bytedance usan una imagen de referencia, plantean datos y audio para generar animación, Mocha omite las entradas visuales por completo. Omnihuman-1, lanzado el 4 de febrero, aplica un transformador de difusión y un sistema de animación guiado por pose.
Combina audio con mapas de calor posees y un autoencoder variacional 3D (VAE), que ofrece un control de gestos de grano fino. El sistema fue entrenado en más de 19,000 horas de video y aplica una guía sin clasificadores para mejorar el realismo y la diversidad.
mocha, en contraste, utiliza una tubería totalmente generativa. Maneja el movimiento del cuerpo y la facial utilizando solo el acondicionamiento del habla y el texto, sin anclajes visuales externos. Este diseño sin referencia elimina la necesidad de configuraciones de cámara complejas o secuencias de comandos detallados de movimiento, ofreciendo a los creadores un camino aerodinámico para la narración sintética. El modelo también presenta una decodificación no autorgresiva, mejorando la eficiencia al predecir los marcos de movimiento completo en paralelo en lugar de un paso a la vez.
en particular, el documento Mocha no revela el tamaño de sus datos de entrenamiento, a diferencia del extenso conjunto de datos de Omnihuman. Esto deja preguntas sobre su capacidad de generalización, aunque los puntos de referencia de rendimiento sugieren resultados de alta calidad incluso con datos invisibles.
Realismo facial a través de teléfonos inteligentes: la ruta alternativa de Runway
mientras que Mocha construye escenas enteras a partir de rasguños, otros sistemas están recurriendo en el realismo dirigido por los creadores. En octubre de 2024, Runway lanzó ACT-One, una característica que permite a los usuarios grabar sus propias expresiones faciales usando un teléfono inteligente, luego asignar esas actuaciones en personajes animados. Esto evita la captura de movimiento tradicional y se integra en los modelos de generación de videos de Runway.
ACT-One admite una variedad de estilos de animación y permite a los creadores animar microexpresiones, movimientos oculares y sutilezas emocionales sin equipo profesional. Sin embargo, supone que el usuario está dispuesto a realizar la escena. Mocha no requiere rendimiento. Genera expresión y movimiento a partir de indicaciones de texto sola.
Esta distinción es importante. Las herramientas de Runway están optimizadas para el control creativo y el realismo enraizados en las entradas físicas. Mocha automatiza el rendimiento, creando personajes que pueden representar guiones de forma independiente. Es especialmente adecuado para el contenido narrativo como los videos explicadores, las escenas de diálogo digital y la narración de historias impulsadas por la voz donde las configuraciones de la cámara no son prácticas.
posicionando a Mocha en el panorama de AI Video
el 31 de marzo, justo después de que se lanzara el papel de Mocha, raya su modelos de gen-4. Gen-4 admite la solicitud a nivel de escena, rutas de cámara dinámica, control de iluminación y comentarios en tiempo real para ediciones visuales. Estas características permiten a los creadores construir escenas con más precisión, pero también aumentan las demandas de hardware para la representación de alta resolución.
gen-4 optimiza cómo los usuarios coordinan los diferentes componentes de la escena”y fusiona herramientas anteriores como ACT-ACTO en un solo flujo de trabajo. Para los creadores que apuntan a replicar el cinematografía de nivel de estudio, el cinematografía Gen-4 ofrece el control visual detallado, se requiere GPU Power a Match. Creación de baja fricción. El modelo de video de código abierto diseñado para aumentar la accesibilidad para desarrolladores y estudios más pequeños.
Mocha se distingue al enfocarse en el rendimiento y el diálogo. En lugar de construir entornos o esmalte cinematográfico, se concentra en el comportamiento del personaje, la entrega y la expresión emocional, todo de un guión y voz.
el papel de Mocha en la estrategia de IA más amplia de Meta
El desarrollo de Mocha refleja el enfoque de Meta en las herramientas generativas de contenido. En septiembre de 2024, la compañía Introdujo una herramienta de AI dubbing que puede ser una gran cantidad de herramientas de AI
meta también está explorando la integración de personas generadas por IA en sus plataformas sociales. Estos perfiles virtuales podrían publicar contenido, interactuar con los usuarios y simular la actividad del influencer. La idea es completar plataformas con personajes impulsados por la IA que difuminan la línea entre el entretenimiento y la participación del usuario.
Mientras tanto, el liderazgo está cambiando. Joelle Pineau Pineau , Meta’s Head of AI Research AI Figura de LACE Redicará a finales de mayo. Durante su mandato, la IA generativa meta avanzada para la investigación y el uso comercial, incluidos los modelos que ahora impulsan las características de Meta AI en todas las plataformas.
A pesar del lanzamiento público de Mocha como un trabajo de investigación, el equipo no ha anunciado si el modelo estará disponible abiertamente o integrado en las herramientas de orientación al consumidor de Meta. Por ahora, es un prototipo de cómo podría ser la animación de personajes basada en script en el futuro cercano, actuaciones generadas, sin actores o cámaras involucradas.
Donde modelos como Omnihuman-1 de Bytedance usan una imagen de referencia, plantean datos y audio para generar animación, Mocha omite las entradas visuales por completo. Omnihuman-1, lanzado el 4 de febrero, aplica un transformador de difusión y un sistema de animación guiado por pose.
Combina audio con mapas de calor posees y un autoencoder variacional 3D (VAE), que ofrece un control de gestos de grano fino. El sistema fue entrenado en más de 19,000 horas de video y aplica una guía sin clasificadores para mejorar el realismo y la diversidad.
mocha, en contraste, utiliza una tubería totalmente generativa. Maneja el movimiento del cuerpo y la facial utilizando solo el acondicionamiento del habla y el texto, sin anclajes visuales externos. Este diseño sin referencia elimina la necesidad de configuraciones de cámara complejas o secuencias de comandos detallados de movimiento, ofreciendo a los creadores un camino aerodinámico para la narración sintética. El modelo también presenta una decodificación no autorgresiva, mejorando la eficiencia al predecir los marcos de movimiento completo en paralelo en lugar de un paso a la vez.
en particular, el documento Mocha no revela el tamaño de sus datos de entrenamiento, a diferencia del extenso conjunto de datos de Omnihuman. Esto deja preguntas sobre su capacidad de generalización, aunque los puntos de referencia de rendimiento sugieren resultados de alta calidad incluso con datos invisibles.
Realismo facial a través de teléfonos inteligentes: la ruta alternativa de Runway
mientras que Mocha construye escenas enteras a partir de rasguños, otros sistemas están recurriendo en el realismo dirigido por los creadores. En octubre de 2024, Runway lanzó ACT-One, una característica que permite a los usuarios grabar sus propias expresiones faciales usando un teléfono inteligente, luego asignar esas actuaciones en personajes animados. Esto evita la captura de movimiento tradicional y se integra en los modelos de generación de videos de Runway.
ACT-One admite una variedad de estilos de animación y permite a los creadores animar microexpresiones, movimientos oculares y sutilezas emocionales sin equipo profesional. Sin embargo, supone que el usuario está dispuesto a realizar la escena. Mocha no requiere rendimiento. Genera expresión y movimiento a partir de indicaciones de texto sola.
Esta distinción es importante. Las herramientas de Runway están optimizadas para el control creativo y el realismo enraizados en las entradas físicas. Mocha automatiza el rendimiento, creando personajes que pueden representar guiones de forma independiente. Es especialmente adecuado para el contenido narrativo como los videos explicadores, las escenas de diálogo digital y la narración de historias impulsadas por la voz donde las configuraciones de la cámara no son prácticas.
posicionando a Mocha en el panorama de AI Video
el 31 de marzo, justo después de que se lanzara el papel de Mocha, raya su modelos de gen-4. Gen-4 admite la solicitud a nivel de escena, rutas de cámara dinámica, control de iluminación y comentarios en tiempo real para ediciones visuales. Estas características permiten a los creadores construir escenas con más precisión, pero también aumentan las demandas de hardware para la representación de alta resolución.
gen-4 optimiza cómo los usuarios coordinan los diferentes componentes de la escena”y fusiona herramientas anteriores como ACT-ACTO en un solo flujo de trabajo. Para los creadores que apuntan a replicar el cinematografía de nivel de estudio, el cinematografía Gen-4 ofrece el control visual detallado, se requiere GPU Power a Match. Creación de baja fricción. El modelo de video de código abierto diseñado para aumentar la accesibilidad para desarrolladores y estudios más pequeños.
Mocha se distingue al enfocarse en el rendimiento y el diálogo. En lugar de construir entornos o esmalte cinematográfico, se concentra en el comportamiento del personaje, la entrega y la expresión emocional, todo de un guión y voz.
el papel de Mocha en la estrategia de IA más amplia de Meta
El desarrollo de Mocha refleja el enfoque de Meta en las herramientas generativas de contenido. En septiembre de 2024, la compañía Introdujo una herramienta de AI dubbing que puede ser una gran cantidad de herramientas de AI
meta también está explorando la integración de personas generadas por IA en sus plataformas sociales. Estos perfiles virtuales podrían publicar contenido, interactuar con los usuarios y simular la actividad del influencer. La idea es completar plataformas con personajes impulsados por la IA que difuminan la línea entre el entretenimiento y la participación del usuario.
Mientras tanto, el liderazgo está cambiando. Joelle Pineau Pineau , Meta’s Head of AI Research AI Figura de LACE Redicará a finales de mayo. Durante su mandato, la IA generativa meta avanzada para la investigación y el uso comercial, incluidos los modelos que ahora impulsan las características de Meta AI en todas las plataformas.
A pesar del lanzamiento público de Mocha como un trabajo de investigación, el equipo no ha anunciado si el modelo estará disponible abiertamente o integrado en las herramientas de orientación al consumidor de Meta. Por ahora, es un prototipo de cómo podría ser la animación de personajes basada en script en el futuro cercano, actuaciones generadas, sin actores o cámaras involucradas.