A mesterséges intelligencia hangot indító ElevenLabs ma bemutatta Scribe v2 és Scribe v2 valós idejű beszéd-szöveg modelljeit, amelyeket élő, interaktív alkalmazásokhoz terveztek.
A Scribe v2 a lehető legnagyobb pontosságot biztosítja a hang átírásában, előnyben részesítve az átírás hűségét, például a rögzített tartalmat vagy a precíz archiválást. v. Élő, valós idejű átírásra optimalizálva, iparágvezető sebességet biztosít rendkívül alacsony, körülbelül 150 ezredmásodperces késleltetéssel, miközben megőrzi a nagy pontosságot
A londoni székhelyű cég szerint a Scribe v2 Realtime természetesebb, beszélgető mesterséges intelligencia-ügynököket, megbeszélési asszisztenseket és valós idejű feliratozást tesz lehetővé. Az API-n keresztül már elérhető új eszköz célja, hogy emberi szintű pontosságot biztosítson 90 nyelven.
A kiadás megerősíti az ElevenLabs vállalati piacra lépését, kritikus elemet biztosítva a fejlesztők számára, akik reszponzív hangalapú élményeket építenek.
Ez a lépés követi a vállalat közelmúltbeli 6 milliárd dolláros versenytárs növekedését. tér.
Új szabvány a valós idejű átíráshoz
A kifejezetten élő, interaktív környezetekhez tervezett Scribe v2 Realtime a hangos mesterséges intelligencia kritikus szűk keresztmetszetét oldja meg: a sebességet.
A vállalat kiemeli a 150 alatti átírási késleltetést, amely 150 ezredmásodperc alatti emberi teljesítménymilliszekundum, kulcsfontosságú, kulcsfontosságú, másodpercenkénti beszélgetés. [beágyazott tartalom]
Ez a képesség kulcsfontosságú azoknál az alkalmazásoknál, ahol az azonnali válasz nem tárgyalható. Az ehhez a sebességhez hozzájáruló egyedi jellemző a „negatív késleltetés”, ahol a modell előrejelzi a következő szót és írásjeleket, tovább csökkentve az észlelt késést, a vállalat szerint.
A sebességen túlmenően az ElevenLacccy’s több mint a high-the-modell. nyelvek. A termékoldala szerint a Scribe v2 Realtime több fő versenytársát is felülmúlja a belső benchmarkok terén, köztük a Google Gemini Flash 2.5-je, az OpenAI GPT-4o Mini és a Deepgram Nova 3-as SCriblevenLabS EcribeLabs.
benchmark eredmény (Forrás: ElevenLabs)
Folytatva a vállalat teljesítményének trendjét, korábban közzé tett adatokat, amelyek első generációs Open Scribe-modelljét mutatták be, mint az AI-nál alacsonyabb versenyképességi hibaarány. rekord.
A társalgási AI következő generációjának hajtása
A transzkripciós szolgáltatásokkal zsúfolt piacon az ElevenLabs a sebességre és a pontosságra fogad, hogy megragadja a következő generációs hanginterfészeket építő vállalati szegmenst. Elsődleges felhasználási esetei a társalgási mesterséges intelligencia középpontjában állnak, ahol az alacsony késleltetési idő gördülékenyebb interakciót tesz lehetővé a hangügynökökkel értékesítés vagy támogatás céljából.
A végfelhasználók számára ez azt jelenti, hogy a beszélgetések kevesebb kínos szünettel zajlanak, így az automatizált rendszerekkel folytatott interakciók természetesebbé válnak.
Az új modell már be van építve a vállalat saját ElevenLabs Agents platform, amely lehetővé teszi a fejlesztők számára, hogy azonnal telepítsék a gyorsabb átírási motorral hajtott ügynököket.
Ez a zökkenőmentes integráció összhangban van a vállalat hosszú távú elképzeléseivel. Mati Staniszewski vezérigazgató kijelentette: „a hang a jövő interfésze, és arra törekszünk, hogy az ElevenLabs továbbra is a technológia hangja legyen.”
A valós idejű hangmegértés alapvető eszközével az ElevenLabs célja, hogy a növekvő hangalapú szoftver-ökoszisztéma nélkülözhetetlen részévé váljon.
ater-andprise. API-First
A hangalapú alkalmazások következő hullámát építő fejlesztők számára a modell API-first megközelítése leegyszerűsíti az integrációt. Az ElevenLabs elérhetővé tette a Scribe v2 Realtime verziót meglévő API-ján keresztül, biztosítva, hogy széles felhasználói bázisa számára elérhető legyen.
Az ElevenLabs pontosította árazási modelljét is, megerősítve, hogy a használatot a meglévő előfizetési tervek óránkénti kvótái alapján számlázzák ki. Ezzel elkerülhető, hogy a legújabb technológiához bonyolult új árképzési szint kerüljön bevezetésre, ahogyan az API-dokumentációban részletezték.
A vállalati ügyfelek igényeinek kielégítése érdekében a platform vállalati szintű funkciókat tartalmaz. A Voice Activity Detection (VAD) segít a hangfolyamok hatékony kezelésében a csend kiszűrésével, csökkentve ezzel a feldolgozási költségeket. A közlemény szerint egy nulla megőrzési mód is elérhető az érzékeny munkaterhelések kezelésére.
Továbbá az olyan szabványoknak való megfelelés, mint a SOC 2 és a GDPR, elengedhetetlen az egészségügyi modellek, például a szabályozott iparágakban, a finanszírozható és a piacterjedő iparágakban.
A gyors növekedés alapjaira építve
Termékbevezetése a legújabb lépés egy robbanásszerű növekedést tapasztaló vállalattól. Mindössze két hónappal ezelőtt az ElevenLabs tendert hirdetett, amely megduplázta értékét, 6,6 milliárd dollárra. Ez a hír akkor érkezett, amikor meghaladta a 200 millió dolláros éves visszatérő bevételt, amint azt szeptemberben jelentették.
Gyors emelkedése figyelemre méltó. A korábbi Google és Palantir mérnökök által 2022-ben alapított vállalat a 2023 elején elért 2 millió dolláros elővető körből kevesebb mint három év alatt elérte a többmilliárd dolláros státuszt, így csapata és működése rohamos ütemben bővült.
A kezdeti szövegfelolvasó eszközeitől az AI zenei térbe való vitatott, de jogilag körültekintő belépésig az ElevenLabs folyamatosan bővítette kínálatát.
A Scribe v2 Realtime kiadása stratégiai lépés, amely elmélyíti a vállalati képességeket. A széles körben használt hangszintézis-modellek kiegészítésére szolgáló nagy teljesítményű átíró motor biztosításával a vállalat úgy pozicionálja magát, hogy nagyobb részesedést szerezzen a végpontok közötti hangos AI fejlesztési piacból.