ElevenLabs se transforme d’un fournisseur spécialisé d’IA vocale en un centre de production multimodal complet, intégrant des modèles vidéo haut de gamme d’OpenAI, Google et Kling dans sa plate-forme Studio.
Annoncée aujourd’hui, la mise à jour permet aux créateurs de générer des visuels à l’aide de modèles restreints de niveau entreprise, notamment Sora 2 Pro d’OpenAI et Veo 3.1 de Google, directement aux côtés des outils audio natifs d’ElevenLabs.
Dans un communiqué, le L’équipe d’ElevenLabs a souligné que la mise à jour « unifie les modèles d’IA les plus avancés avec nos outils vocaux, sonores et musicaux de pointe », consolidant efficacement les meilleures capacités génératives de leur catégorie dans un seul abonnement. éditeur de chronologie, la société positionne son studio comme un « Adobe pour l’IA » unifié, remettant en question les flux de travail fragmentés qui obligent les utilisateurs à jongler avec des applications distinctes pour la production de scripts, de voix et de vidéo.
Agréger les géants : une nouvelle stratégie multimodale
ElevenLabs a officiellement étendu sa plate-forme « Studio » pour inclure la génération d’images et de vidéos, marquant un changement décisif par rapport à ses racines en tant que société d’IA audio purement spécialisée.
Plutôt que de tenter de créer des modèles vidéo propriétaires à partir de zéro pour concurrencer directement des opérateurs historiques tels que Runway ou Luma, la société a adopté une stratégie d’agrégation. Cette approche positionne ElevenLabs comme une couche d’interface unifiée pour les géants tiers, rationalisant l’accès aux outils fragmentés.
L’intégration comprend certains des modèles les plus convoités et les plus restreints du secteur. Les utilisateurs peuvent désormais accéder à Sora 2 Pro d’OpenAI et à Veo 3.1 de Google, des modèles qui ont connu un déploiement public limité en dehors de certains programmes partenaires.
[contenu intégré]
Cette décision positionne ElevenLabs Studio comme un concurrent direct des éditeurs non linéaires (NLE) traditionnels comme Adobe Premiere, mais avec un flux de travail génératif qui combine le script, la voix, les effets sonores et les visuels dans une seule chronologie.
En les centralisant outils, l’entreprise s’attaque aux frictions de la pile créative actuelle d’IA. En règle générale, les créateurs doivent générer des ressources sur Discord, diverses applications Web et logiciels locaux avant de les assembler ailleurs.
La plate-forme prend désormais en charge une transition transparente de l’invite de texte à l’exportation vidéo finale dans un environnement unique.
Le pivot s’aligne sur les déclarations du PDG Mati Staniszewski. vision de construire une « entreprise générationnelle », allant au-delà des risques de marchandisation des services de synthèse vocale autonomes.
L’expansion s’appuie sur une année de croissance rapide et de diversification des produits pour l’entreprise. Comme précédemment couvert par Winbuzzer, ElevenLabs a récemment doublé sa valorisation à 6,6 milliards de dollars à la suite d’une offre publique d’achat de 100 millions de dollars auprès des employés, ce qui témoigne de la forte confiance des investisseurs dans sa stratégie de plateforme plus large.
Sous le capot : intégration de Sora, Veo et Kling
Pour les créateurs, le principal attrait réside dans les capacités spécifiques des modèles intégrés. OpenAI Sora 2 Pro se positionne comme le modèle vidéo phare, offrant une sortie haute fidélité à des résolutions de 720p ou 1080p.
Il prend en charge des durées fixes de 4, 8 ou 12 secondes et est optimisé pour les résultats cinématographiques et les mouvements complexes. Cependant, cette performance s’accompagne d’un coût élevé de 12 000 crédits par génération et ne prend actuellement pas en charge les références de fin d’image.
Google Veo 3.1 offre une alternative de qualité professionnelle axée sur le contrôle créatif. Il fournit des fonctionnalités telles que des invites négatives et un contrôle du son dédié pour des clips de 4 à 8 secondes pour un coût de 8 000 crédits. Ce modèle est particulièrement adapté aux utilisateurs ayant besoin d’une direction précise sur la sortie visuelle plutôt que d’une simple fidélité brute.
Kling 2.5 est inclus pour sa force en matière de simulation physique et de dynamique des fluides. Il génère une vidéo 1080p en rafales de 5 ou 10 secondes pour 3 500 crédits. Bien qu’elle ne dispose pas du contrôle sonore des modèles Google, son coût de crédit inférieur et ses capacités physiques spécifiques en font une option viable pour les scènes dynamiques.
Au-delà de la vidéo, la plate-forme intègre une gamme diversifiée de modèles d’images. Flux 1 Kontext Pro offre un contrôle de style avancé, tandis que Google Nano Banana est optimisé pour la vitesse. Seedream 4 est disponible pour générer des séquences multi-plans cohérentes, cruciales pour les projets de narration.
Pour garantir que ces ressources sont viables pour les écrans haute résolution, les utilisateurs peuvent augmenter les sorties jusqu’à 4x à l’aide des modèles Topaz Upscale. La suite comprend également des modèles utilitaires spécialisés comme Omnihuman 1.5 pour animer des images statiques et Veed LipSync pour le doublage de vidéos existantes.
Ces outils comblent le fossé entre la génération visuelle et la technologie audio de base d’ElevenLabs, qui comprend le modèle de synthèse vocale en temps réel Scribe v2 récemment lancé.
Flux de travail du studio et coût de création
L’interface du studio introduit une chronologie unifiée où les utilisateurs peuvent télécharger une vidéo pour générer automatiquement un script ou écrire un script pour générer les visuels correspondants.
Une fonctionnalité clé est le flux de travail « Correction de la parole », dans lequel l’édition de la transcription du texte régénère automatiquement le segment de voix off correspondant. Cette fonctionnalité rationalise considérablement le processus de révision, éliminant le besoin de réenregistrer ou de raccorder manuellement l’audio.
La consommation de crédit est très variable, créant une économie complexe pour les utilisateurs. Une seule génération vidéo haut de gamme à l’aide de Sora 2 Pro coûte 12 000 crédits, soit bien plus que les tâches audio ou image standard.
Le guide produit indique que « la génération vidéo n’est disponible que sur les forfaits payants », ce qui signifie que les utilisateurs gratuits sont limités aux capacités de génération d’images.
Les options d’exportation sont robustes, prenant en charge les téléchargements MP4 avec les codecs H.264/H.265 et PNG pour les images. Les ressources peuvent également être directement réimportées dans les projets Studio pour une édition ultérieure. La plate-forme prend également en charge les flux de travail « Image-to-Video », permettant aux utilisateurs d’utiliser les images générées comme images de départ pour maintenir la cohérence visuelle entre les clips vidéo.
Cette stratégie d’agrégation permet à ElevenLabs d’offrir les meilleures performances de sa catégorie dans toutes les modalités sans supporter les coûts énormes de R&D liés à la formation des modèles vidéo de base.
Elle complète leur portefeuille existant, qui comprend l’outil de génération Eleven Music et l’API Voice Isolator, créant ainsi un écosystème complet pour les médias pilotés par l’IA. production.