ElevenLabs se está transformando de un proveedor especializado de inteligencia artificial de voz a un centro de producción multimodal integral, integrando modelos de video de alta gama de OpenAI, Google y Kling en su plataforma Studio.
Anunciada hoy, la actualización permite a los creadores generar imágenes utilizando modelos restringidos de nivel empresarial, incluidos Sora 2 Pro de OpenAI y Veo 3.1 de Google, directamente junto con las herramientas de audio nativas de ElevenLabs.
En un comunicado, El equipo de ElevenLabs enfatizó que la actualización”unifica los modelos de inteligencia artificial más avanzados con nuestras herramientas de voz, sonido y música líderes en la industria”, consolidando efectivamente las mejores capacidades generativas de su clase en una sola suscripción.
Al agregar generadores de video de terceros dentro de un único editor de línea de tiempo, la compañía está posicionando su Studio como un”Adobe para IA”unificado, desafiando los flujos de trabajo fragmentados que obligan a los usuarios a hacer malabarismos con aplicaciones separadas para la producción de guiones, voz y video.
Agregando a los gigantes: una nueva estrategia multimodal
ElevenLabs ha expandido oficialmente su plataforma”Studio”para incluir generación de imágenes y videos, lo que marca un cambio decisivo desde sus raíces como una empresa de IA de audio exclusivamente.
Más bien En lugar de intentar crear modelos de vídeo propietarios desde cero para competir directamente con empresas tradicionales como Runway o Luma, la empresa ha adoptado una estrategia de agregación. Este enfoque posiciona a ElevenLabs como una capa de interfaz unificada para gigantes externos, agilizando el acceso a herramientas fragmentadas.
En la integración se incluyen algunos de los modelos más codiciados y restringidos de la industria. Los usuarios ahora pueden acceder a Sora 2 Pro de OpenAI y Veo 3.1 de Google, modelos que han tenido una implementación pública limitada fuera de programas asociados selectos.
[contenido incorporado]
Este movimiento posiciona a ElevenLabs Studio como un competidor directo de los editores no lineales (NLE) tradicionales como Adobe Premiere, pero con un flujo de trabajo generativo que combina guión, voz, efectos de sonido e imágenes en una línea de tiempo.
Al centralizar estas herramientas, el La empresa aborda la fricción de la pila creativa actual de IA. Por lo general, los creadores deben generar recursos en Discord, varias aplicaciones web y software local antes de ensamblarlos en otro lugar.
La plataforma ahora admite una transición perfecta desde las indicaciones de texto hasta la exportación final de video dentro de un único entorno.
El pivote se alinea con el del CEO Mati Staniszewski visión declarada de construir una”empresa generacional”, yendo más allá de los riesgos de mercantilización de los servicios independientes de conversión de texto a voz.
La expansión se basa en un año de rápido crecimiento y diversificación de productos para la empresa. Como informó anteriormente Winbuzzer, ElevenLabs duplicó recientemente su valoración a 6.600 millones de dólares tras una oferta pública de 100 millones de dólares de los empleados, lo que indica una fuerte confianza de los inversores en su estrategia de plataforma más amplia.
Bajo el capó: integración de Sora, Veo y Kling
Para los creadores, el atractivo principal radica en las capacidades específicas de los modelos integrados. OpenAI Sora 2 Pro se posiciona como el modelo de vídeo insignia y ofrece salida de alta fidelidad con resoluciones de 720p o 1080p.
Admite duraciones fijas de 4, 8 o 12 segundos y está optimizado para resultados cinematográficos y movimientos complejos. Sin embargo, este rendimiento tiene un coste elevado de 12.000 créditos por generación y actualmente carece de soporte para referencias de final de cuadro.
Google Veo 3.1 ofrece una alternativa de nivel profesional centrada en el control creativo. Proporciona funciones como indicaciones negativas y control de sonido dedicado para clips de 4 a 8 segundos a un costo de 8000 créditos. Este modelo es particularmente adecuado para usuarios que necesitan una dirección precisa sobre la salida visual en lugar de simplemente fidelidad pura.
Kling 2.5 se incluye por su solidez en simulación física y dinámica de fluidos. Genera vídeo de 1080p en ráfagas de 5 o 10 segundos por 3500 créditos. Si bien carece del control de sonido de los modelos de Google, su menor costo de crédito y sus capacidades físicas específicas lo convierten en una opción viable para escenas dinámicas.
Más allá del video, la plataforma integra una amplia gama de modelos de imágenes. Flux 1 Kontext Pro ofrece control de estilo avanzado, mientras que Google Nano Banana está optimizado para la velocidad. Seedream 4 está disponible para generar secuencias de múltiples tomas consistentes, cruciales para proyectos de narración de historias.
Para garantizar que estos activos sean viables para pantallas de alta resolución, los usuarios pueden mejorar las salidas hasta 4 veces utilizando los modelos Topaz Upscale. La suite también incluye modelos de utilidad especializados como Omnihuman 1.5 para animar imágenes estáticas y Veed LipSync para doblar videos existentes.
Estas herramientas cierran la brecha entre la generación visual y la tecnología de audio principal de ElevenLabs, que incluye el modelo de voz a texto en tiempo real Scribe v2 recientemente lanzado.
Flujo de trabajo de Studio y el costo de creación
La interfaz de Studio presenta una línea de tiempo unificada donde los usuarios puede cargar un video para generar automáticamente un guión o escribir un guión para generar las imágenes correspondientes.
Una característica clave es el flujo de trabajo de”Corrección de voz”, donde la edición de la transcripción del texto regenera automáticamente el segmento de voz en off correspondiente. Esta capacidad agiliza significativamente el proceso de revisión, eliminando la necesidad de volver a grabar o unir audio manualmente.
El consumo de crédito es muy variable, lo que crea una economía compleja para los usuarios. Una sola generación de vídeo de alta gama con Sora 2 Pro cuesta 12.000 créditos, significativamente más que las tareas estándar de audio o imagen.
La guía del producto señala que “la generación de vídeo solo está disponible en planes pagos”, lo que significa que los usuarios gratuitos están limitados a las capacidades de generación de imágenes.
Las opciones de exportación son sólidas, admite descargas MP4 con códecs H.264/H.265 y PNG para imágenes. Alternativamente, los activos se pueden volver a importar directamente a proyectos de Studio para su posterior edición. La plataforma también admite flujos de trabajo de”imagen a vídeo”, lo que permite a los usuarios utilizar imágenes generadas como fotogramas de inicio para mantener la coherencia visual en los clips de vídeo.
Esta estrategia de agregación permite a ElevenLabs ofrecer el mejor rendimiento en todas las modalidades sin asumir los enormes costos de I+D de la formación de modelos de vídeo básicos.
Complementa su cartera existente, que incluye la herramienta de generación de Eleven Music y la API Voice Isolator, creando un ecosistema integral para medios impulsados por IA. producción.