La startup vocale IA ElevenLabs a lancé aujourd’hui ses modèles de synthèse vocale Scribe v2 et Scribe v2 Realtime conçus pour les applications interactives en direct.
Scribe v2 offre la plus grande précision possible dans la transcription audio, en donnant la priorité à la fidélité de la transcription, comme le contenu enregistré ou l’archivage précis.
Scribe v2 Realtime, en revanche, est optimisé pour la transcription en direct et en temps réel et offre une vitesse de pointe avec une latence ultra-faible. d’environ 150 millisecondes tout en conservant une grande précision
Selon la société Scribe basée à Londres, v2 Realtime permet des agents d’IA conversationnels, des assistants de réunion et des sous-titres en temps réel plus naturels. Disponible dès maintenant via son API, le nouvel outil vise à offrir une précision de niveau humain dans 90 langues.
Cette version renforce la poussée d’ElevenLabs sur le marché des entreprises, en fournissant un composant essentiel pour les développeurs qui créent des expériences vocales réactives.
Cette décision fait suite à la récente hausse de la valorisation de l’entreprise à 6,6 milliards de dollars, signalant son expansion rapide dans l’espace concurrentiel de l’IA générative.
Une nouvelle norme pour le temps réel. Transcription
Conçu spécifiquement pour les environnements interactifs en direct, Scribe v2 Realtime résout un goulot d’étranglement critique dans l’IA vocale : la vitesse.
La société met en avant une latence de transcription inférieure à 150 millisecondes, une mesure de performance clé pour permettre une conversation fluide et semblable à celle d’un humain.
[contenu intégré]
Une telle capacité est cruciale pour les applications où une réponse immédiate n’est pas négociable. Une caractéristique unique qui contribue à cette vitesse est la « latence négative », où le modèle prédit le mot et la ponctuation suivants, réduisant ainsi davantage le retard perçu, selon l’entreprise.
Au-delà de sa vitesse, ElevenLabs vante la grande précision du modèle dans plus de 90 langues. Selon sa page produit, Scribe v2 Realtime surpasse plusieurs concurrents majeurs dans les benchmarks internes, notamment Gemini Flash 2.5 de Google, GPT-4o Mini d’OpenAI et Nova 3 de Deepgram.
Résultat du benchmark ElevenLabs Scribe v2 Realtime FLEURS (Source : ElevenLabs)
Poursuivant une tendance de performance pour l’entreprise, elle a précédemment publié des données montrant que son modèle Scribe de première génération avait un taux d’erreur de mot inférieur à celui des offres d’OpenAI, établissant ainsi un historique concurrentiel.
Alimenter la prochaine génération de IA conversationnelle
Dans un marché encombré de services de transcription, ElevenLabs mise sur la rapidité et la précision pour conquérir le segment des entreprises qui créent des interfaces vocales de nouvelle génération. Ses principaux cas d’utilisation sont centrés sur l’IA conversationnelle, où une faible latence permet des interactions plus fluides avec les agents vocaux pour les ventes ou l’assistance.
Pour les utilisateurs finaux, cela se traduit par des conversations avec moins de pauses gênantes, rendant les interactions avec les systèmes automatisés plus naturelles.
Le nouveau modèle est déjà intégré dans la propre Plateforme d’agents ElevenLabs, permettant aux développeurs de déployer immédiatement des agents alimentés par le moteur de transcription plus rapide.
Cette intégration transparente s’aligne sur la vision à long terme de l’entreprise. Le PDG Mati Staniszewski a déclaré: « la voix est l’interface du futur et nous construisons pour garantir qu’ElevenLabs continue d’être la voix de la technologie. »
En fournissant un outil fondamental pour la compréhension de la voix en temps réel, ElevenLabs vise à devenir un élément indispensable de l’écosystème croissant des logiciels vocaux.
Prêt pour l’entreprise et API-First
Pour les développeurs qui construisent la prochaine vague de logiciels vocaux. applications, l’approche API du modèle simplifie l’intégration. ElevenLabs a rendu Scribe v2 Realtime disponible via son API existante, garantissant ainsi qu’il est accessible à sa large base d’utilisateurs.
ElevenLabs a également clarifié son modèle de tarification, confirmant que l’utilisation sera facturée sur les quotas horaires des plans d’abonnement existants. Cela évite d’introduire un nouveau niveau de tarification complexe pour sa dernière technologie, comme détaillé dans sa documentation API.
Pour répondre aux besoins des entreprises clientes, la plateforme comprend une suite de fonctionnalités de niveau entreprise. La détection d’activité vocale (VAD) permet de gérer efficacement les flux audio en filtrant le silence, réduisant ainsi les coûts de traitement. Un mode de rétention zéro pour gérer les charges de travail sensibles est également disponible, selon l’annonce.
En outre, la conformité à des normes telles que SOC 2 et RGPD est essentielle pour l’adoption dans des secteurs réglementés tels que la finance et la santé, élargissant ainsi le marché adressable du modèle.
S’appuyer sur une base de croissance rapide
Le lancement de son produit est la dernière initiative d’une entreprise connaissant une croissance explosive. Il y a à peine deux mois, ElevenLabs a annoncé une offre publique d’achat qui a doublé sa valorisation à 6,6 milliards de dollars. Cette nouvelle est survenue alors que le chiffre d’affaires annuel récurrent a dépassé les 200 millions de dollars, comme indiqué en septembre.
Son ascension rapide est remarquable. Fondée en 2022 par d’anciens ingénieurs de Google et Palantir, l’entreprise est passée d’un cycle de pré-amorçage de 2 millions de dollars début 2023 à un statut de plusieurs milliards de dollars en moins de trois ans, développant son équipe et ses opérations à un rythme fulgurant, selon l’histoire de l’entreprise.
De ses premiers outils de synthèse vocale à son entrée controversée mais juridiquement prudente dans l’espace musical de l’IA, ElevenLabs a constamment élargi ses offres.
La sortie de Scribe v2 Realtime est une étape stratégique qui approfondit ses capacités d’entreprise. En fournissant un moteur de transcription hautes performances pour compléter ses modèles de synthèse vocale largement utilisés, la société se positionne pour conquérir une part plus importante du marché du développement de bout en bout de l’IA vocale.