Start ze sztuczną inteligencją głosową ElevenLabs uruchomił dziś modele zamiany mowy na tekst Scribe v2 i Scribe v2 Realtime przeznaczone do interaktywnych aplikacji na żywo.

Scribe v2 zapewnia najwyższą możliwą dokładność transkrypcji dźwięku, stawiając na pierwszym miejscu wierność transkrypcji, np. nagranej treści lub precyzyjnej archiwizacji.

Z drugiej strony Scribe v2 Realtime jest zoptymalizowany pod kątem transkrypcji na żywo w czasie rzeczywistym i zapewnia wiodącą w branży prędkość bardzo małe opóźnienie wynoszące około 150 milisekund przy zachowaniu wysokiej dokładności

Według londyńskiej firmy Scribe v2 Realtime umożliwia bardziej naturalną konwersację agentów AI, asystentów spotkań i tworzenie napisów w czasie rzeczywistym. Nowe narzędzie, dostępne obecnie za pośrednictwem interfejsu API, ma zapewnić dokładność na poziomie ludzkim w 90 językach.

Wersja ta wzmacnia wejście ElevenLabs na rynek korporacyjny, zapewniając kluczowy element programistom tworzącym responsywne doświadczenia sterowane głosem.

Jego ruch jest następstwem niedawnego wzrostu wyceny firmy do 6,6 miliarda dolarów, sygnalizującego jej szybką ekspansję w konkurencyjnej przestrzeni generatywnej sztucznej inteligencji.

Nowy standard czasu rzeczywistego Transkrypcja

Zaprojektowany specjalnie dla żywych, interaktywnych środowisk, Scribe v2 Realtime rozwiązuje krytyczne wąskie gardło w sztucznej inteligencji głosowej: szybkość.

Firma podkreśla opóźnienie transkrypcji poniżej 150 milisekund, kluczowy wskaźnik wydajności umożliwiający płynną, ludzką rozmowę.

[treść osadzona]

Taka możliwość jest kluczowa w zastosowaniach, w których natychmiastowa reakcja nie podlega negocjacjom. Unikalną cechą wpływającą na tę prędkość jest „ujemne opóźnienie”, w przypadku którego model przewiduje następne słowo i znaki interpunkcyjne, co jeszcze bardziej zmniejsza postrzegane opóźnienie, według firmy.

Oprócz szybkości ElevenLabs zachwala wysoką dokładność modelu w ponad 90 językach. Według strony produktu, Scribe v2 Realtime przewyższa kilku głównych konkurentów w wewnętrznych testach porównawczych, w tym Google Gemini Flash 2.5, GPT-4o Mini OpenAI i Nova 3 firmy Deepgram.

Wynik testu porównawczego ElevenLabs Scribe v2 Realtime FLEURS (źródło: ElevenLabs)

Kontynuując trend wydajności firmy, wcześniej publikował dane wskazujące, że model Scribe pierwszej generacji miał niższy współczynnik błędów w słowach niż oferty OpenAI, ustanawiając tym samym konkurencyjną historię.

Powering następna generacja konwersacyjnej sztucznej inteligencji

Na rynku pełnym usług transkrypcji ElevenLabs stawia na szybkość i dokładność, aby uchwycić segment przedsiębiorstw tworzący interfejsy głosowe nowej generacji. Jego główne zastosowania skupiają się na konwersacyjnej sztucznej inteligencji, gdzie małe opóźnienia pozwalają na bardziej płynne interakcje z agentami głosowymi w celach sprzedaży lub wsparcia.

Dla użytkowników końcowych oznacza to rozmowy z mniejszą liczbą niezręcznych przerw, dzięki czemu interakcje z automatycznymi systemami wydają się bardziej naturalne.

Nowy model jest już zintegrowany z własną Platforma ElevenLabs Agents, umożliwiająca programistom natychmiastowe wdrażanie agentów obsługiwanych przez szybszy silnik transkrypcji.

Ta płynna integracja jest zgodna z długoterminową wizją firmy. Dyrektor generalny Mati Staniszewski stwierdził: „Głos to przyszły interfejs i pracujemy nad tym, aby ElevenLabs nadal było głosem technologii.”

Udostępniając podstawowe narzędzie do rozumienia głosu w czasie rzeczywistym, ElevenLabs dąży do tego, aby stać się nieodzowną częścią rosnącego ekosystemu oprogramowania zasilanego głosem.

Enterprise-Ready i API-First

Dla programistów tworzących kolejną falę rozwiązań aplikacji sterowanych głosem, podejście modelu oparte na interfejsie API upraszcza integrację. ElevenLabs udostępniło Scribe v2 Realtime za pośrednictwem istniejącego interfejsu API, zapewniając jego dostępność dla szerokiej bazy użytkowników.

ElevenLabs doprecyzowało także swój model cenowy, potwierdzając, że opłaty za użytkowanie będą rozliczane w oparciu o limity godzinowe istniejących planów subskrypcji. Pozwala to uniknąć wprowadzenia nowego, złożonego poziomu cenowego dla najnowszej technologii, zgodnie z dokumentacją interfejsu API.

Aby sprostać potrzebom klientów korporacyjnych, platforma zawiera zestaw funkcji klasy korporacyjnej. Wykrywanie aktywności głosowej (VAD) pomaga efektywnie zarządzać strumieniami audio, filtrując ciszę, redukując koszty przetwarzania. Dostępny jest również tryb zerowego przechowywania do obsługi wrażliwych obciążeń, zgodnie z ogłoszeniem.

Ponadto zgodność ze standardami takimi jak SOC 2 i RODO jest niezbędna do wdrożenia w regulowanych branżach, takich jak finanse i opieka zdrowotna, co poszerza rynek, do którego model może dotrzeć.

Budowanie na fundamencie szybkiego wzrostu

Wprowadzenie produktu na rynek to najnowsze posunięcie firmy doświadczającej gwałtownego wzrostu. Zaledwie dwa miesiące temu ElevenLabs ogłosiło wezwanie, które podwoiło jego wycenę do 6,6 miliarda dolarów. Wiadomość ta pojawiła się, gdy według raportu we wrześniu roczny stały przychód przekroczył 200 milionów dolarów.

Jego szybki wzrost jest niezwykły. Założona w 2022 roku przez byłych inżynierów Google i Palantir firma rozwinęła się z rundy wstępnej o wartości 2 milionów dolarów na początku 2023 roku do wielomiliardowego statusu w niecałe trzy lata, rozwijając swój zespół i operacje w zawrotnym tempie, zgodnie z historią firmy.

Od pierwszych narzędzi zamiany tekstu na mowę po kontrowersyjne, ale ostrożne pod względem prawnym wejście w przestrzeń muzyczną sztucznej inteligencji, ElevenLabs konsekwentnie poszerza swoją ofertę.

Wydanie Scribe v2 Realtime to strategiczny krok, który pogłębia możliwości firmy. Dostarczając wysokowydajny silnik transkrypcji uzupełniający szeroko stosowane modele syntezy głosu, firma może zdobyć większy udział w rynku kompleksowego rozwoju sztucznej inteligencji głosowej.

Categories: IT Info