Das AI-Voice-Startup ElevenLabs hat heute seine Sprach-zu-Text-Modelle Scribe v2 und Scribe v2 Realtime vorgestellt, die für interaktive Live-Anwendungen entwickelt wurden.

Scribe v2 bietet die höchstmögliche Genauigkeit bei der Audiotranskription, wobei die Treue der Transkription, wie z. B. aufgezeichnete Inhalte oder präzise Archivierung, im Vordergrund steht.

Scribe v2 Realtime hingegen ist für Live-Transkription in Echtzeit optimiert und bietet branchenführende Geschwindigkeit mit extrem geringer Latenz von etwa 150 Millisekunden bei gleichzeitig hoher Genauigkeit

Laut dem in London ansässigen Unternehmen ermöglicht Scribe v2 Realtime natürlichere Konversations-KI-Agenten, Besprechungsassistenten und Untertitel in Echtzeit. Das neue Tool ist jetzt über seine API verfügbar und zielt darauf ab, Genauigkeit auf menschlicher Ebene in 90 Sprachen zu liefern.

Die Veröffentlichung stärkt ElevenLabs‘ Vorstoß in den Unternehmensmarkt und stellt eine entscheidende Komponente für Entwickler dar, die reaktionsfähige sprachgesteuerte Erlebnisse entwickeln.

Dieser Schritt folgt auf den jüngsten Wertanstieg des Unternehmens auf 6,6 Milliarden US-Dollar und signalisiert damit seine schnelle Expansion im wettbewerbsintensiven Bereich der generativen KI.

Ein neuer Standard für Echtzeit Transkription

Scribe v2 Realtime wurde speziell für interaktive Live-Umgebungen entwickelt und behebt einen kritischen Engpass in der Sprach-KI: Geschwindigkeit.

Das Unternehmen hebt eine Transkriptionslatenz von unter 150 Millisekunden hervor, eine wichtige Leistungskennzahl für nahtlose, menschenähnliche Konversation.

[eingebetteter Inhalt]

Diese Fähigkeit ist entscheidend für Anwendungen, bei denen eine sofortige Reaktion nicht verhandelbar ist. Ein einzigartiges Merkmal, das zu dieser Geschwindigkeit beiträgt, ist die „negative Latenz“, bei der das Modell das nächste Wort und die nächste Zeichensetzung vorhersagt und so die wahrgenommene Verzögerung weiter reduziert, nach Angaben des Unternehmens.

Neben seiner Geschwindigkeit wirbt ElevenLabs auch für die hohe Genauigkeit des Modells in mehr als 90 Sprachen. Laut seiner Produktseite übertrifft Scribe v2 Realtime mehrere große Konkurrenten in internen Benchmarks, darunter Googles Gemini Flash 2.5, OpenAIs GPT-4o Mini und Deepgrams Nova 3.

ElevenLabs Scribe v2 Realtime FLEURS Benchmark-Ergebnis (Quelle: ElevenLabs)

Um den Leistungstrend des Unternehmens fortzusetzen, hat es bereits zuvor Daten veröffentlicht, die zeigen, dass sein Scribe-Modell der ersten Generation eine geringere Wortfehlerrate als die Angebote von OpenAI aufwies und damit eine wettbewerbsfähige Erfolgsbilanz vorweisen konnte.

Unterstützung für die nächste Generation von Gesprächen KI

In einem Markt voller Transkriptionsdienste setzt ElevenLabs auf Geschwindigkeit und Genauigkeit, um das Unternehmenssegment durch die Entwicklung von Sprachschnittstellen der nächsten Generation zu erobern. Seine Hauptanwendungsfälle konzentrieren sich auf Konversations-KI, bei der eine geringe Latenz flüssigere Interaktionen in Sprachagenten für Vertrieb oder Support ermöglicht.

Für Endbenutzer führt dies zu Gesprächen mit weniger unangenehmen Pausen, wodurch sich Interaktionen mit automatisierten Systemen natürlicher anfühlen.

Das neue Modell ist bereits in die firmeneigene ElevenLabs Agents-Plattform, die es Entwicklern ermöglicht, Agenten sofort bereitzustellen, die auf der schnelleren Transkriptions-Engine basieren.

Diese nahtlose Integration steht im Einklang mit der langfristigen Vision des Unternehmens. CEO Mati Staniszewski erklärte: „Sprache ist die Schnittstelle der Zukunft und wir arbeiten daran, sicherzustellen, dass ElevenLabs weiterhin die Stimme der Technologie bleibt.“

Durch die Bereitstellung eines grundlegenden Tools für das Sprachverständnis in Echtzeit möchte ElevenLabs ein unverzichtbarer Teil des wachsenden sprachgesteuerten Software-Ökosystems werden.

Enterprise-Ready und API-First

Für Entwickler, die die nächste Welle sprachgesteuerter Software aufbauen Anwendungen vereinfacht der API-First-Ansatz des Modells die Integration. ElevenLabs hat Scribe v2 Realtime über seine bestehende API verfügbar gemacht und so sichergestellt, dass es für seine breite Benutzerbasis zugänglich ist.

ElevenLabs hat außerdem sein Preismodell klargestellt und bestätigt, dass die Nutzung anhand der Stundenkontingente bestehender Abonnementpläne abgerechnet wird. Dadurch wird die Einführung einer komplexen neuen Preisstufe für die neueste Technologie vermieden, wie in der API-Dokumentation beschrieben.

Um den Anforderungen von Unternehmenskunden gerecht zu werden, umfasst die Plattform eine Reihe von Funktionen der Unternehmensklasse. Die Sprachaktivitätserkennung (VAD) hilft bei der effizienten Verwaltung von Audiostreams, indem sie Stille herausfiltert und so die Verarbeitungskosten senkt. laut der Ankündigung ist auch ein Zero-Retention-Modus für die Handhabung sensibler Arbeitslasten verfügbar.

Darüber hinaus ist die Einhaltung von Standards wie SOC 2 und DSGVO für die Einführung in regulierten Branchen wie dem Finanz-und Gesundheitswesen von entscheidender Bedeutung und erweitert den adressierbaren Markt des Modells.

Aufbauend darauf eine Grundlage für schnelles Wachstum

Die Produkteinführung ist der jüngste Schritt eines Unternehmens, das ein explosionsartiges Wachstum verzeichnet. Erst vor zwei Monaten kündigte ElevenLabs ein Übernahmeangebot an, das seinen Wert auf 6,6 Milliarden US-Dollar verdoppelte. Diese Nachricht kam zu einem Zeitpunkt, als der jährliche wiederkehrende Umsatz die Marke von 200 Millionen US-Dollar überstieg, wie im September gemeldet wurde.

Der rasante Anstieg ist bemerkenswert. Das 2022 von ehemaligen Google-und Palantir-Ingenieuren gegründete Unternehmen entwickelte sich in weniger als drei Jahren von einer 2-Millionen-Dollar-Pre-Seed-Runde Anfang 2023 zu einem Multi-Milliarden-Dollar-Status und skalierte sein Team und seine Betriebsabläufe laut seiner Unternehmensgeschichte in rasender Geschwindigkeit.

Von den ersten Text-to-Speech-Tools bis zum kontroversen, aber rechtlich vorsichtigen Einstieg in den KI-Musikbereich hat ElevenLabs sein Angebot kontinuierlich erweitert.

Die Veröffentlichung von Scribe v2 Realtime ist ein strategischer Schritt, der seine Unternehmensfähigkeiten vertieft. Durch die Bereitstellung einer leistungsstarken Transkriptions-Engine als Ergänzung zu seinen weit verbreiteten Sprachsynthesemodellen positioniert sich das Unternehmen in der Lage, einen größeren Anteil am Markt für die End-to-End-Sprach-KI-Entwicklung zu erobern.

Categories: IT Info