AI-stemstartup ElevenLabs heeft vandaag zijn Scribe v2 en Scribe v2 Realtime spraak-naar-tekst-modellen gelanceerd, ontworpen voor live, interactieve toepassingen.

Scribe v2 levert de hoogst mogelijke nauwkeurigheid bij het transcriberen van audio, waarbij prioriteit wordt gegeven aan transcriptiegetrouwheid, zoals opgenomen inhoud of nauwkeurige archivering.

Scribe v2 Realtime daarentegen is geoptimaliseerd voor live, realtime transcriptie en biedt toonaangevende snelheid met ultralage latentie van ongeveer 150 milliseconden met behoud van hoge nauwkeurigheid

Volgens het in Londen gevestigde bedrijf Scribe v2 maakt Realtime natuurlijkere AI-agenten, vergaderassistenten en realtime ondertiteling mogelijk. De nieuwe tool is nu beschikbaar via de API en heeft tot doel nauwkeurigheid op menselijk niveau te leveren in 90 talen.

De release versterkt de impuls van ElevenLabs op de zakelijke markt en biedt een cruciaal onderdeel voor ontwikkelaars die responsieve spraakgestuurde ervaringen bouwen.

Deze stap volgt op de recente waarderingsstijging van het bedrijf naar $ 6,6 miljard, wat een signaal is van de snelle expansie in de concurrerende generatieve AI-ruimte.

Een nieuwe standaard voor realtime Transcriptie

Scribe v2 Realtime is speciaal ontworpen voor live, interactieve omgevingen en pakt een cruciaal knelpunt in stem-AI aan: snelheid.

Het bedrijf benadrukt een transcriptielatentie van minder dan 150 milliseconden, een belangrijke prestatiemaatstaf voor het mogelijk maken van naadloze, mensachtige gesprekken.

[embedded content]

Dergelijke mogelijkheden zijn cruciaal voor toepassingen waarbij onmiddellijke respons niet onderhandelbaar is. Een unieke functie die aan deze snelheid bijdraagt ​​is’negatieve latentie’, waarbij het model het volgende woord en interpunctie voorspelt, waardoor de waargenomen vertraging verder wordt verminderd, volgens het bedrijf.

Naast de snelheid prijst ElevenLabs de hoge nauwkeurigheid van het model in meer dan 90 talen. Volgens de productpagina presteert Scribe v2 Realtime beter dan verschillende grote concurrenten in interne benchmarks, waaronder Google’s Gemini Flash 2.5, OpenAI’s GPT-4o Mini en Deepgram’s Nova 3.

ElevenLabs Scribe v2 Realtime FLEURS benchmarkresultaat (Bron: ElevenLabs)

Voortbouwend op een prestatietrend voor het bedrijf, heeft het eerder gegevens gepubliceerd die aantoonden dat het Scribe-model van de eerste generatie een lager woordfoutenpercentage had dan het aanbod van OpenAI, wat een competitief trackrecord opleverde.

De volgende generatie van conversational aandrijven. AI

In een markt vol transcriptiediensten zet ElevenLabs in op snelheid en nauwkeurigheid om het bedrijfssegment te veroveren door de volgende generatie spraakinterfaces te bouwen. De primaire gebruiksscenario’s zijn gericht op conversationele AI, waarbij een lage latentie vloeiendere interacties in stemagenten voor verkoop of ondersteuning mogelijk maakt.

Voor eindgebruikers vertaalt dit zich in gesprekken met minder ongemakkelijke pauzes, waardoor interacties met geautomatiseerde systemen natuurlijker aanvoelen.

Het nieuwe model is al geïntegreerd in de eigen ElevenLabs Agents platform, waardoor ontwikkelaars onmiddellijk agenten kunnen inzetten die worden aangedreven door de snellere transcriptie-engine.

Deze naadloze integratie sluit aan bij de langetermijnvisie van het bedrijf. CEO Mati Staniszewski heeft verklaard:”stem is de toekomstige interface en we bouwen eraan om ervoor te zorgen dat ElevenLabs de stem van de technologie blijft.”

Door een fundamenteel hulpmiddel te bieden voor realtime spraakverstaan, wil ElevenLabs een onmisbaar onderdeel worden van het groeiende stemgestuurde software-ecosysteem.

Enterprise-Ready en API-First

Voor ontwikkelaars die de volgende golf van spraakgestuurde applicaties bouwen, De API-first-benadering van het model vereenvoudigt de integratie. ElevenLabs heeft Scribe v2 Realtime beschikbaar gemaakt via de bestaande API, waardoor het toegankelijk is voor zijn brede gebruikersbasis.

ElevenLabs heeft ook zijn prijsmodel verduidelijkt en bevestigd dat het gebruik zal worden gefactureerd op basis van de uurquota van bestaande abonnementen. Dit vermijdt de introductie van een complex nieuw prijsniveau voor de nieuwste technologie, zoals beschreven in de API-documentatie.

Om aan de behoeften van zakelijke klanten te voldoen, bevat het platform een ​​reeks zakelijke functies. Voice Activity Detection (VAD) helpt audiostreams efficiënt te beheren door stilte weg te filteren, waardoor de verwerkingskosten worden verlaagd. Er is ook een modus zonder retentie beschikbaar voor het verwerken van gevoelige werklasten, volgens de aankondiging.

Bovendien is naleving van standaarden zoals SOC 2 en GDPR essentieel voor adoptie in gereguleerde sectoren zoals de financiële sector en de gezondheidszorg, waardoor de bereikbare markt van het model wordt verbreed.

Voortbouwend op een basis voor snelle groei

De productlancering is de nieuwste zet van een bedrijf dat een explosieve groei doormaakt. Nog maar twee maanden geleden kondigde ElevenLabs een bod aan dat de waardering verdubbelde tot $6,6 miljard. Dat nieuws kwam toen de jaarlijkse terugkerende omzet de $200 miljoen overschreed, zoals gerapporteerd in september.

De snelle stijging is opmerkelijk. Het bedrijf, dat in 2022 werd opgericht door ex-ingenieurs van Google en Palantir, evolueerde van een pre-seed-ronde van $ 2 miljoen begin 2023 naar de status van meerdere miljarden dollars in minder dan drie jaar, waarbij het team en de activiteiten in een zinderend tempo werden opgeschaald, volgens de bedrijfsgeschiedenis.

Vanaf het begin tekst-naar-spraak-tools voor zijn controversiële maar juridisch zorgvuldige intrede in de AI-muziekruimte, heeft ElevenLabs zijn aanbod consequent uitgebreid.

Het uitbrengen van Scribe v2 Realtime is een strategische stap die de zakelijke mogelijkheden verdiept. Door een krachtige transcriptie-engine te leveren als aanvulling op de veelgebruikte spraaksynthesemodellen, positioneert het bedrijf zich om een ​​groter deel van de end-to-end stem-AI-ontwikkelingsmarkt te veroveren.

Categories: IT Info