A ElevenLabs, startup de voz com IA, lançou hoje seus modelos de fala para texto Scribe v2 e Scribe v2 Realtime projetados para aplicativos interativos ao vivo.
O Scribe v2 oferece a mais alta precisão possível na transcrição de áudio, priorizando a fidelidade da transcrição, como conteúdo gravado ou arquivamento preciso.
O Scribe v2 Realtime, por outro lado, é otimizado para transcrição ao vivo em tempo real e fornece velocidade líder do setor com velocidade ultrabaixa. latência de cerca de 150 milissegundos, mantendo alta precisão
De acordo com a empresa Scribe v2, com sede em Londres, o Realtime permite agentes de IA de conversação mais naturais, assistentes de reunião e legendas em tempo real. Disponível agora por meio de sua API, a nova ferramenta visa fornecer precisão de nível humano em 90 idiomas.
O lançamento fortalece o avanço da ElevenLabs no mercado empresarial, fornecendo um componente crítico para desenvolvedores que criam experiências responsivas baseadas em voz.
Essa mudança segue o recente aumento de avaliação da empresa para US$ 6,6 bilhões, sinalizando sua rápida expansão no espaço competitivo de IA generativa.
Um novo padrão para tempo real Transcrição
Projetado especificamente para ambientes interativos ao vivo, o Scribe v2 Realtime aborda um gargalo crítico na IA de voz: a velocidade.
A empresa destaca uma latência de transcrição de menos de 150 milissegundos, uma métrica de desempenho chave para permitir conversas perfeitas e humanas.
[conteúdo incorporado]
Essa capacidade é crucial para aplicações onde a resposta imediata não é negociável. Um recurso exclusivo que contribui para essa velocidade é a “latência negativa”, em que o modelo prevê a próxima palavra e pontuação, reduzindo ainda mais o atraso percebido, de acordo com a empresa.
Além de sua velocidade, a ElevenLabs apregoa a alta precisão do modelo em mais de 90 idiomas. De acordo com a página do produto, o Scribe v2 Realtime supera vários concorrentes importantes em benchmarks internos, incluindo o Gemini Flash 2.5 do Google, o GPT-4o Mini da OpenAI e o Nova 3 da Deepgram.
Resultado do benchmark ElevenLabs Scribe v2 Realtime FLEURS (Fonte: ElevenLabs)
Continuando uma tendência de desempenho para a empresa, ela dados publicados mostrando que seu modelo Scribe de primeira geração tinha uma taxa de erro de palavras menor do que as ofertas da OpenAI, estabelecendo um histórico competitivo.
Impulsionando a próxima geração de conversação IA
Em um mercado repleto de serviços de transcrição, a ElevenLabs está apostando em velocidade e precisão para capturar o segmento empresarial construindo interfaces de voz de próxima geração. Seus principais casos de uso estão centrados na IA conversacional, onde a baixa latência permite interações mais fluidas em agentes de voz para vendas ou suporte.
Para os usuários finais, isso se traduz em conversas com menos pausas estranhas, tornando as interações com sistemas automatizados mais naturais.
O novo modelo já está integrado ao ElevenLabs da própria empresa Plataforma de agentes, permitindo que os desenvolvedores implantem imediatamente agentes com a tecnologia do mecanismo de transcrição mais rápido.
Essa integração perfeita se alinha à visão de longo prazo da empresa. O CEO Mati Staniszewski declarou: “a voz é a interface do futuro e estamos construindo para garantir que a ElevenLabs continue a ser a voz da tecnologia”.
Ao fornecer uma ferramenta fundamental para compreensão de voz em tempo real, a ElevenLabs pretende se tornar uma parte indispensável do crescente ecossistema de software alimentado por voz. aplicativos, a abordagem API-first do modelo simplifica a integração. A ElevenLabs disponibilizou o Scribe v2 Realtime por meio de sua API existente, garantindo que ele seja acessível à sua ampla base de usuários.
A ElevenLabs também esclareceu seu modelo de preços, confirmando que o uso será cobrado de acordo com as cotas horárias dos planos de assinatura existentes. Isso evita a introdução de um novo nível de preços complexo para sua tecnologia mais recente, conforme detalhado na documentação da API.
Para atender às necessidades dos clientes corporativos, a plataforma inclui um conjunto de recursos de nível empresarial. A Detecção de Atividade de Voz (VAD) ajuda a gerenciar fluxos de áudio de forma eficiente, filtrando o silêncio e reduzindo os custos de processamento. Um modo de retenção zero para lidar com cargas de trabalho confidenciais também está disponível, de acordo com o anúncio.
Além disso, a conformidade com padrões como SOC 2 e GDPR é essencial para adoção em setores regulamentados, como finanças e saúde, ampliando o mercado endereçável do modelo.
Construção em uma base de rápido crescimento
O lançamento de seu produto é o mais recente movimento de uma empresa que está vivenciando um crescimento explosivo. Há apenas dois meses, a ElevenLabs anunciou uma oferta pública que dobrou sua avaliação para US$ 6,6 bilhões. Essa notícia surgiu quando ultrapassou os 200 milhões de dólares em receitas recorrentes anuais, conforme divulgado em setembro.
A sua rápida ascensão é notável. Fundada em 2022 por ex-engenheiros do Google e da Palantir, a empresa progrediu de uma rodada de pré-lançamento de US$ 2 milhões no início de 2023 para seu status multibilionário em menos de três anos, ampliando sua equipe e operações em um ritmo alucinante, de acordo com a história de sua empresa.
Desde seu início ferramentas de conversão de texto em voz até sua entrada controversa, mas legalmente cuidadosa, no espaço musical de IA, a ElevenLabs expandiu consistentemente suas ofertas.
Lançar o Scribe v2 Realtime é um passo estratégico que aprofunda suas capacidades empresariais. Ao fornecer um mecanismo de transcrição de alto desempenho para complementar seus modelos de síntese de voz amplamente utilizados, a empresa se posiciona para capturar uma fatia maior do mercado de desenvolvimento de IA de voz de ponta a ponta.