La startup de voz con IA ElevenLabs lanzó hoy sus modelos de voz a texto Scribe v2 y Scribe v2 Realtime diseñados para aplicaciones interactivas en vivo.

Scribe v2 ofrece la mayor precisión posible en la transcripción de audio, priorizando la fidelidad de la transcripción, como contenido grabado o archivo preciso.

Scribe v2 Realtime, por otro lado, está optimizado para la transcripción en vivo y en tiempo real y proporciona una velocidad líder en la industria con Latencia ultrabaja de aproximadamente 150 milisegundos manteniendo una alta precisión

Según la empresa londinense Scribe v2 Realtime permite agentes de IA conversacionales, asistentes de reuniones y subtítulos en tiempo real más naturales. Disponible ahora a través de su API, la nueva herramienta tiene como objetivo ofrecer precisión a nivel humano en 90 idiomas.

El lanzamiento fortalece el impulso de ElevenLabs en el mercado empresarial, proporcionando un componente crítico para los desarrolladores que crean experiencias responsivas impulsadas por voz.

Su decisión sigue al reciente aumento de la valoración de la compañía a $6.6 mil millones, lo que indica su rápida expansión en el competitivo espacio de la IA generativa.

Un nuevo estándar para el tiempo real Transcripción

Diseñado específicamente para entornos interactivos en vivo, Scribe v2 Realtime aborda un cuello de botella crítico en la inteligencia artificial de voz: la velocidad.

La compañía destaca una latencia de transcripción de menos de 150 milisegundos, una métrica de rendimiento clave para permitir una conversación fluida y similar a la humana.

[contenido integrado]

Dicha capacidad es crucial para aplicaciones donde la respuesta inmediata no es negociable. Una característica única que contribuye a esta velocidad es la”latencia negativa”, donde el modelo predice la siguiente palabra y puntuación, reduciendo aún más el retraso percibido, según la empresa.

Más allá de su velocidad, ElevenLabs promociona la alta precisión del modelo en más de 90 idiomas. Según su página de producto, Scribe v2 Realtime supera a varios competidores importantes en pruebas comparativas internas, incluidos Gemini Flash 2.5 de Google, GPT-4o Mini de OpenAI y Nova 3 de Deepgram.

Resultado de la prueba comparativa FLEURS de ElevenLabs Scribe v2 Realtime (Fuente: ElevenLabs)

Continuando con una tendencia de rendimiento para la empresa, anteriormente publicó datos que mostraban que su modelo Scribe de primera generación tenía una tasa de error de palabras más baja que las ofertas de OpenAI, estableciendo un historial competitivo.

Impulsando la próxima generación de conversación IA

En un mercado repleto de servicios de transcripción, ElevenLabs apuesta por la velocidad y la precisión para capturar el segmento empresarial construyendo interfaces de voz de próxima generación. Sus casos de uso principales se centran en la IA conversacional, donde la baja latencia permite interacciones más fluidas en los agentes de voz para ventas o soporte.

Para los usuarios finales, esto se traduce en conversaciones con menos pausas incómodas, lo que hace que las interacciones con sistemas automatizados se sientan más naturales.

El nuevo modelo ya está integrado en la propia Plataforma ElevenLabs Agents, que permite a los desarrolladores implementar inmediatamente agentes impulsados por el motor de transcripción más rápido.

Esta perfecta integración se alinea con la visión a largo plazo de la empresa. El CEO Mati Staniszewski ha declarado:”La voz es la interfaz del futuro y estamos construyendo para garantizar que ElevenLabs siga siendo la voz de la tecnología”.

Al proporcionar una herramienta fundamental para la comprensión de la voz en tiempo real, ElevenLabs pretende convertirse en una parte indispensable del creciente ecosistema de software impulsado por voz.

Listo para la empresa y API-First

Para los desarrolladores que construyen la próxima ola de Aplicaciones impulsadas por voz, el enfoque API primero del modelo simplifica la integración. ElevenLabs ha puesto a disposición Scribe v2 Realtime a través de su API existente, asegurando que sea accesible para su amplia base de usuarios.

ElevenLabs también aclaró su modelo de precios, confirmando que el uso se facturará según las cuotas por hora de los planes de suscripción existentes. Esto evita introducir un nuevo nivel de precios complejo para su última tecnología, como se detalla en su documentación API.

Para satisfacer las necesidades de los clientes corporativos, la plataforma incluye un conjunto de características de nivel empresarial. La detección de actividad de voz (VAD) ayuda a administrar las transmisiones de audio de manera eficiente al filtrar el silencio y reducir los costos de procesamiento. También está disponible un modo de retención cero para manejar cargas de trabajo sensibles, según el anuncio.

Además, el cumplimiento de estándares como SOC 2 y GDPR es esencial para la adopción en industrias reguladas como las finanzas y la atención médica, ampliando el mercado al que se dirige el modelo.

Aprovechando el tema una base de crecimiento rápido

El lanzamiento de su producto es el último paso de una empresa que está experimentando un crecimiento explosivo. Hace apenas dos meses, ElevenLabs anunció una oferta pública de adquisición que duplicó su valoración a 6.600 millones de dólares. Esa noticia llegó cuando superó los 200 millones de dólares en ingresos recurrentes anuales, como se informó en septiembre.

Su rápido ascenso es notable. Fundada en 2022 por antiguos ingenieros de Google y Palantir, la empresa pasó de una ronda inicial de 2 millones de dólares a principios de 2023 a su estado multimillonario en menos de tres años, ampliando su equipo y sus operaciones a un ritmo vertiginoso, según su historia empresarial.

Desde sus herramientas iniciales de conversión de texto a voz hasta su controvertido pero legalmente cuidadoso ingreso al espacio de la música con inteligencia artificial, ElevenLabs ha ampliado constantemente su oferta.

El lanzamiento de Scribe v2 Realtime es un paso estratégico que profundiza sus capacidades empresariales. Al proporcionar un motor de transcripción de alto rendimiento para complementar sus modelos de síntesis de voz ampliamente utilizados, la empresa se posiciona para captar una mayor participación del mercado de desarrollo de inteligencia artificial de voz de extremo a extremo.

Categories: IT Info