AI Voice Startup ElevenLabs Ngayon ay inilunsad ang Scribe V2 at Scribe V2 Realtime Speech-to-Text models na idinisenyo para sa live, interactive application. Ang real-time na transkripsyon at nagbibigay ng bilis ng nangunguna sa industriya na may ultra-mababang latency na halos 150 millisecond habang pinapanatili ang mataas na kawastuhan
Ayon sa kumpanya na nakabase sa London na si Scribe V2 Realtime ay nagbibigay-daan sa mas natural na mga ahente ng pag-uusap AI, mga katulong sa pagpupulong, at real-time na captioning. Magagamit na ngayon sa pamamagitan ng API nito, ang bagong tool ay naglalayong maihatid ang katumpakan ng antas ng tao sa buong 90 na wika.
Isang bagong pamantayan para sa real-time na transkripsyon
Ang ganitong kakayahan ay mahalaga para sa mga application kung saan ang agarang tugon ay hindi maaaring makipag-usap. Ang isang natatanging tampok na nag-aambag sa bilis na ito ay”negatibong latency,”kung saan hinuhulaan ng modelo ang susunod na salita at bantas, na higit na binabawasan ang napansin na pagkaantala, Ayon sa kumpanya . Katumpakan sa higit sa 90 na wika. Ayon sa Pahina ng produkto , ang Scribe v2 Realtime ay naglalabas ng ilang mga pangunahing kakumpitensya sa panloob na mga benchmark, kasama ang Google’s Gemini Flash 2.5, Openai’s GPT-4O Mini, at DeepGram’s Nova 3. Resulta ng Benchmark ng Fleurs (Pinagmulan: ElevenLabs) Competitive track record. Ang mga pangunahing kaso ng paggamit nito ay nakasentro sa pag-uusap AI, kung saan pinapayagan ng mababang latency para sa higit pang mga pakikipag-ugnayan sa likido sa mga ahente ng boses para sa mga benta o suporta. href=”https://elevenlabs.io/docs/agents-platform”target=”_ blangko”> ElevenLabs agents platform , na pinapayagan ang mga developer na agad na mag-deploy ng mga ahente na pinalakas ng mas mabilis na transkripsyon ng makina. Ang CEO Mati Staniszewski ay nagsabi,”Ang boses ay ang interface sa hinaharap at nagtatayo kami upang matiyak na ang ElevenLabs ay patuloy na boses ng teknolohiya.”
API-FIRST Ang ElevenLabs ay gumawa ng Scribe V2 Realtime na magagamit sa pamamagitan ng umiiral na API, tinitiyak na ma-access ito sa malawak na base ng gumagamit nito. Iniiwasan nito ang pagpapakilala ng isang kumplikadong bagong tier ng pagpepresyo para sa pinakabagong teknolohiya, Tulad ng detalyado sa dokumentasyon ng API nito . Ang Voice Activity Detection (VAD) ay tumutulong sa pamamahala ng mga audio stream nang mahusay sa pamamagitan ng pag-filter ng katahimikan, pagbabawas ng mga gastos sa pagproseso. Ang isang zero-retention mode para sa paghawak ng mga sensitibong workload ay magagamit din, bawat anunsyo . Ang addressable market ng modelo. Dalawang buwan lamang ang nakalilipas, inihayag ng ElevenLabs ang isang malambot na alok na nagdoble sa pagpapahalaga nito sa $ 6.6 bilyon. Ang balita na iyon ay dumating habang lumampas ito sa $ 200 milyon sa taunang paulit-ulit na kita, tulad ng iniulat noong Setyembre.
Ang mabilis na pag-akyat nito ay kapansin-pansin. Itinatag noong 2022 ng mga inhinyero ng ex-Google at Palantir, ang kumpanya ay umunlad mula sa isang $ 2 milyong pre-seed round sa unang bahagi ng 2023 hanggang sa multi-bilyon-dolyar na katayuan sa ilalim ng tatlong taon, na nasusukat ang koponan at operasyon nito sa isang blistering bilis,