AI-röststartup ElevenLabs lanserade idag sina Scribe v2 och Scribe v2 Realtime tal-till-text-modeller designade för live, interaktiva applikationer.
Scribe v2 ger högsta möjliga noggrannhet vid transkribering av ljud, prioriterar transkriptionstrohet, såsom inspelat innehåll eller exakt arkivering på andra sidan. optimerad för transkribering i realtid och ger branschledande hastighet med ultralåg latens på cirka 150 millisekunder samtidigt som hög noggrannhet bibehålls
Enligt det London-baserade företaget Scribe v2 möjliggör Realtime mer naturliga konversations-AI-agenter, mötesassistenter och realtidstextning. Det nya verktyget, som är tillgängligt nu via dess API, syftar till att leverera noggrannhet på mänsklig nivå över 90 språk.
Utgåvan stärker ElevenLabs satsning på företagsmarknaden och ger en kritisk komponent för utvecklare som bygger lyhörda röstdrivna upplevelser.
Dess satsning följer företagets senaste värderingsstegring till 6,6 miljarder dollar, vilket ger en konkurrenskraftig expansion på 6,6 miljarder dollar.
En ny standard för realtidstranskription
Scribe v2 Realtime har utformats specifikt för live, interaktiva miljöer och åtgärdar en kritisk flaskhals i röst-AI: hastighet.
Företaget lyfter fram en transkriptionsfördröjning på under 150 millisekunder, en nyckelprestanda-liknande konversationsstatistik för enabling av konversation utan mänskligt innehåll.
En sådan förmåga är avgörande för applikationer där omedelbar respons inte är förhandlingsbar. En unik funktion som bidrar till denna hastighet är”negativ fördröjning”, där modellen förutsäger nästa ord och skiljetecken, vilket ytterligare minskar upplevd fördröjning, enligt företaget.
Utöver dess höga hastigheter till Eleveny’s modeller mer än 90 språk. Enligt sin produktsida överträffar Scribe v2 Realtime flera stora konkurrenter i interna benchmarks, inklusive Googles Gemini Flash 2.5, OpenAI:s GPT-4o Mini och Deepgrams Nova 3.
Real v2Scribs-resultat Scribeelevelevelevelevensc. ElevenLabs)
För att fortsätta en prestandatrend för företaget har det tidigare publicerat data som visar sin första generations Scribe-modell hade en lägre ordfelsfrekvens än OpenAI:s konkurrenskraftiga erbjudanden än OpenAIs erbjudanden. Nästa generation av konversations-AI
På en marknad full av transkriptionstjänster satsar ElevenLabs på snabbhet och precision för att fånga företagssegmentet som bygger nästa generations röstgränssnitt. Dess primära användningsfall är centrerade på konversations-AI, där låg latens möjliggör mer flytande interaktioner i röstagenter för försäljning eller support.
För slutanvändare översätts detta till konversationer med färre besvärliga pauser, vilket gör att interaktioner med automatiserade system känns mer naturliga.
Den nya modellen är redan integrerad i företagets egen ElevenLabs Agents-plattform, som gör det möjligt för utvecklare att omedelbart distribuera agenter som drivs av den snabbare transkriptionsmotorn.
Denna sömlösa integration överensstämmer med företagets långsiktiga vision. VD Mati Staniszewski har sagt,”röst är det framtida gränssnittet och vi bygger för att säkerställa att ElevenLabs fortsätter att vara teknikens röst.”
Genom att tillhandahålla ett grundläggande verktyg för röstförståelse i realtid, siktar ElevenLabs på att bli en oumbärlig del av det växande röstdrivna mjukvaruekosystemet.
Enterprise>
För utvecklare som bygger nästa våg av röststyrda applikationer, förenklar modellens API-first-strategi integrationen. ElevenLabs har gjort Scribe v2 Realtime tillgängligt via sitt befintliga API, vilket säkerställer att det är tillgängligt för sin breda användarbas.
ElevenLabs förtydligade också sin prismodell och bekräftade att användningen kommer att faktureras mot timkvoterna för befintliga prenumerationsplaner. Detta undviker att introducera en komplex ny prisnivå för sin senaste teknik, som beskrivs i API-dokumentationen.
För att möta företagskunders behov innehåller plattformen en uppsättning funktioner i företagsklass. Voice Activity Detection (VAD) hjälper till att hantera ljudströmmar effektivt genom att filtrera bort tystnad, vilket minskar bearbetningskostnaderna. Ett nollretentionsläge för hantering av känsliga arbetsbelastningar är också tillgängligt, enligt tillkännagivandet.
Dessutom är efterlevnad av standarder som SOC 2 och GDPR avgörande för att branscher ska kunna ta i bruk en bredare modell för hälso-och sjukvård, t.ex. marknaden.
Byggar på en grund för snabb tillväxt
Dess produktlansering är det senaste steget från ett företag som upplever explosiv tillväxt. För bara två månader sedan offentliggjorde ElevenLabs ett anbud som fördubblade sin värdering till 6,6 miljarder dollar. Den nyheten kom när den översteg 200 miljoner USD i årliga återkommande intäkter, som rapporterades i september.
Dess snabba uppgång är anmärkningsvärd. Företaget grundades 2022 av före detta ingenjörer från Google och Palantir och gick från en pre-seed-runda på 2 miljoner dollar i början av 2023 till sin status på flera miljarder dollar på mindre än tre år, vilket utökade sitt team och sin verksamhet i en rasande takt, access to the company historyp
Från de första text-till-tal-verktygen till dess kontroversiella men juridiskt noggranna inträde i AI-musikområdet, har ElevenLabs konsekvent utökat sitt utbud.
Att släppa Scribe v2 Realtime är ett strategiskt steg som fördjupar företagets kapacitet. Genom att tillhandahålla en högpresterande transkriptionsmotor för att komplettera sina flitigt använda modeller för röstsyntes, positionerar företaget sig för att ta en större andel av utvecklingsmarknaden för röst-AI från slut till ände.