AI-stemmeoppstart ElevenLabs lanserte i dag sine Scribe v2 og Scribe v2 Realtime tale-til-tekst-modeller designet for live, interaktive applikasjoner.

Scribe v2 leverer høyest mulig nøyaktighet i transkribering av lyd, og prioriterer transkripsjonstrohet, for eksempel innspilt innhold eller presis arkivering på annen side. optimert for direkte transkripsjon i sanntid og gir bransjeledende hastighet med ultralav ventetid på ca. 150 millisekunder samtidig som høy nøyaktighet opprettholdes

I følge det London-baserte selskapet Scribe v2 Realtime muliggjør mer naturlige samtale-AI-agenter, møteassistenter og sanntidsteksting. Det nye verktøyet, som nå er tilgjengelig via API-et, har som mål å levere nøyaktighet på menneskelig nivå på tvers av 90 språk.

Utgivelsen styrker ElevenLabs’ støt inn i bedriftsmarkedet, og gir en kritisk komponent for utviklere som bygger responsive stemmedrevne opplevelser.

Tiltaket følger selskapets nylige verdistigning til 6,6 milliarder dollar, og signaliserer dens raske ekspansjon til 6,6 milliarder dollar.

En ny standard for sanntidstranskripsjon

Scribe v2 Realtime er designet spesielt for live, interaktive miljøer, og adresserer en kritisk flaskehals i stemme-AI: hastighet.

Selskapet fremhever en transkripsjonsforsinkelse på under 150 millisekunder, en nøkkelberegning for ytelse uten innhold, [personlig-lignende innhold].

Slik evne er avgjørende for applikasjoner der umiddelbar respons ikke er omsettelig. En unik funksjon som bidrar til denne hastigheten er «negativ forsinkelse», der modellen forutsier neste ord og tegnsetting, og reduserer opplevd forsinkelse ytterligere, i henhold til selskapet.

Ut mer dens høye hastighet til Eleveny-modellen enn 90 språk. I følge sin produktside, overgår Scribe v2 Realtime flere store konkurrenter i interne benchmarks, inkludert Googles Gemini Flash 2.5, OpenAIs GPT-4o Mini og Deepgrams Nova 3.

Eleven v2Scribs-resultat: Source v2Sc. ElevenLabs)

For å fortsette en resultattrend for selskapet, har det tidligere publiserte data som viser førstegenerasjons Scribe-modellen en lavere ordfeilfrekvens enn OpenAIs konkurransedyktige tilbud enn OpenAIs tilbud. Next Generation of Conversational AI

I et marked full av transkripsjonstjenester satser ElevenLabs på hastighet og nøyaktighet for å fange bedriftssegmentet som bygger neste generasjons talegrensesnitt. Dens primære brukstilfeller er sentrert på konversasjons-AI, hvor lav latens gir mer flytende interaksjoner i taleagenter for salg eller støtte.

For sluttbrukere betyr dette samtaler med færre vanskelige pauser, noe som gjør at interaksjoner med automatiserte systemer føles mer naturlig.

Den nye modellen er allerede integrert i selskapets egen ElevenLabs Agents-plattform, som lar utviklere umiddelbart distribuere agenter drevet av den raskere transkripsjonsmotoren.

Denne sømløse integrasjonen er i tråd med selskapets langsiktige visjon. Administrerende direktør Mati Staniszewski har uttalt,”stemme er fremtidens grensesnitt, og vi bygger for å sikre at ElevenLabs fortsetter å være teknologiens stemme.”

Ved å tilby et grunnleggende verktøy for sanntids stemmeforståelse, har ElevenLabs som mål å bli en uunnværlig del av det voksende stemmedrevne programvareøkosystemet.

Enterprise>

For utviklere som bygger den neste bølgen av stemmedrevne applikasjoner, forenkler modellens API-first-tilnærming integrasjon. ElevenLabs har gjort Scribe v2 Realtime tilgjengelig gjennom sin eksisterende API, for å sikre at den er tilgjengelig for sin brede brukerbase.

ElevenLabs klargjorde også sin prismodell, og bekreftet at bruken vil bli fakturert mot timekvotene til eksisterende abonnementsplaner. Dette unngår å introdusere et komplekst nytt prisnivå for sin nyeste teknologi, som beskrevet i API-dokumentasjonen.

For å møte behovene til bedriftskunder inkluderer plattformen en pakke med funksjoner i bedriftskvalitet. Voice Activity Detection (VAD) hjelper deg med å administrere lydstrømmer effektivt ved å filtrere ut stillhet, og redusere behandlingskostnadene. En null-retensjonsmodus for håndtering av sensitive arbeidsbelastninger er også tilgjengelig, i henhold til kunngjøringen.

I tillegg er overholdelse av standarder som SOC 2 og GDPR avgjørende for å ta i bruk helsevesenets modeller, for eksempel adressering av finansregulert og bredt regulert industri. markedet.

Bygger på et grunnlag for rask vekst

Produktlanseringen er det siste trekket fra et selskap som opplever eksplosiv vekst. For bare to måneder siden annonserte ElevenLabs et anbudstilbud som doblet verdien til 6,6 milliarder dollar. Den nyheten kom da den oversteg 200 millioner dollar i årlige gjentakende inntekter, som rapportert i september.

Den raske stigningen er bemerkelsesverdig. Selskapet ble grunnlagt i 2022 av tidligere Google-og Palantir-ingeniører, og utviklet seg fra en pre-seed-runde på 2 millioner dollar tidlig i 2023 til sin multi-milliard-dollar-status på under tre år, og skalert teamet og driften i et voldsomt tempo,