ElevenLabs transformeert van een gespecialiseerde leverancier van stem-AI naar een uitgebreide multimodale productiehub, waarbij hoogwaardige videomodellen van OpenAI, Google en Kling worden geïntegreerd in het Studio-platform.
Vandaag aangekondigd, stelt de update makers in staat om beelden te genereren met behulp van beperkte bedrijfsmodellen, waaronder OpenAI’s Sora 2 Pro en Google’s Veo 3.1, direct naast de eigen audiotools van ElevenLabs.
In een verklaring worden de Het team van ElevenLabs benadrukte dat de update “de meest geavanceerde AI-modellen verenigt met onze toonaangevende stem-, geluids-en muziektools”, waardoor de beste generatieve mogelijkheden in zijn klasse effectief worden geconsolideerd in één abonnement.
Door videogeneratoren van derden samen te voegen binnen één enkele tijdlijneditor, het bedrijf positioneert zijn Studio als een uniforme’Adobe voor AI’, waarbij gefragmenteerde workflows worden uitgedaagd die gebruikers dwingen om met afzonderlijke apps te jongleren voor script-, spraak-en videoproductie.
De reuzen samenbrengen: een nieuwe multimodale strategie
ElevenLabs heeft zijn’Studio’-platform officieel uitgebreid met het genereren van afbeeldingen en video’s, wat een beslissende verschuiving markeert van zijn roots als een pure-play audio-AI-bedrijf.
In plaats van te proberen dat te doen eigen videomodellen van de grond af aan te bouwen om rechtstreeks te concurreren met gevestigde exploitanten als Runway of Luma, heeft het bedrijf een aggregatorstrategie aangenomen. Deze aanpak positioneert ElevenLabs als een uniforme interfacelaag voor externe giganten, waardoor de toegang tot gefragmenteerde tools wordt gestroomlijnd.
Inbegrepen in de integratie zijn enkele van de meest begeerde en beperkte modellen in de branche. Gebruikers hebben nu toegang tot OpenAI’s Sora 2 Pro en Google’s Veo 3.1, modellen die beperkt openbaar zijn ingezet buiten geselecteerde partnerprogramma’s.
[embedded content]
Deze stap positioneert ElevenLabs Studio als een directe concurrent van traditionele niet-lineaire editors (NLE’s) zoals Adobe Premiere, maar met een generatieve workflow die script, stem, geluidseffecten en beelden in één tijdlijn combineert.
Door centralisatie Met deze tools pakt het bedrijf de frictie van de huidige AI-creatieve stack aan. Normaal gesproken moeten makers middelen genereren via Discord, verschillende web-apps en lokale software voordat ze deze elders kunnen samenstellen.
Het platform ondersteunt nu een naadloze overgang van tekstprompts naar de uiteindelijke video-export binnen één omgeving.
De spil komt overeen met CEO Mati Staniszewski’s visie op het opbouwen van een’generatiebedrijf’, dat verder gaat dan de commoditiseringsrisico’s van zelfstandige tekst-naar-spraakdiensten.
De uitbreiding bouwt voort op een jaar van snelle groei en productdiversificatie voor het bedrijf. Zoals eerder vermeld door Winbuzzer, heeft ElevenLabs onlangs zijn waardering verdubbeld tot $6,6 miljard na een bod van $100 miljoen door werknemers, wat een teken is van een groot vertrouwen van investeerders in zijn bredere platformstrategie.
Onder de motorkap: integratie van Sora, Veo en Kling
Voor makers ligt de voornaamste aantrekkingskracht in de specifieke mogelijkheden van de geïntegreerde modellen. OpenAI Sora 2 Pro is gepositioneerd als het vlaggenschip videomodel en biedt hifi-uitvoer met een resolutie van 720p of 1080p.
Het ondersteunt vaste duur van 4, 8 of 12 seconden en is geoptimaliseerd voor filmische resultaten en complexe bewegingen. Deze prestatie gaat echter gepaard met hoge kosten van 12.000 credits per generatie en er ontbreekt momenteel ondersteuning voor eindframereferenties.
Google Veo 3.1 biedt een professioneel alternatief dat zich richt op creatieve controle. Het biedt functies zoals negatieve aanwijzingen en speciale geluidsregeling voor clips van 4 tot 8 seconden voor een bedrag van 8.000 credits. Dit model is met name geschikt voor gebruikers die precieze regie over de visuele uitvoer nodig hebben in plaats van alleen maar ruwe natuurgetrouwheid.
Kling 2.5 is opgenomen vanwege zijn kracht in natuurkundige simulatie en vloeistofdynamica. Het genereert 1080p-video in bursts van 5 of 10 seconden voor 3.500 credits. Hoewel het de goede controle van de Google-modellen mist, maken de lagere kredietkosten en specifieke fysische mogelijkheden het een haalbare optie voor dynamische scènes.
Naast video integreert het platform een breed scala aan beeldmodellen. Flux 1 Kontext Pro biedt geavanceerde stijlcontrole, terwijl Google Nano Banana is geoptimaliseerd voor snelheid. Seedream 4 is beschikbaar voor het genereren van consistente multi-shot-reeksen, cruciaal voor storytelling-projecten.
Om ervoor te zorgen dat deze middelen geschikt zijn voor schermen met hoge resolutie, kunnen gebruikers de output tot 4x opschalen met behulp van Topaz Upscale-modellen. De suite bevat ook gespecialiseerde hulpprogramma’s zoals Omnihuman 1.5 voor het animeren van statische beelden en Veed LipSync voor het nasynchroniseren van bestaande video.
Deze tools overbruggen de kloof tussen visuele generatie en de belangrijkste audiotechnologie van ElevenLabs, waaronder het onlangs gelanceerde Scribe v2 Realtime spraak-naar-tekst-model.
Studio-workflow en de kosten van creatie
De Studio-interface introduceert een uniforme tijdlijn waar gebruikers kunnen uploaden een video om automatisch een script te genereren of een script te schrijven om overeenkomstige beelden te genereren.
Een belangrijk kenmerk is de workflow”Spraakcorrectie”, waarbij het bewerken van het teksttranscript automatisch het overeenkomstige voice-oversegment genereert. Deze mogelijkheid stroomlijnt het revisieproces aanzienlijk, waardoor het niet meer nodig is om audio opnieuw op te nemen of handmatig te splitsen.
Het kredietverbruik is zeer variabel, waardoor een complexe economie voor gebruikers ontstaat. Eén enkele high-end videogeneratie met Sora 2 Pro kost 12.000 credits, aanzienlijk meer dan standaard audio-of beeldtaken.
De productgids vermeldt dat”videogeneratie alleen beschikbaar is op betaalde abonnementen”, wat betekent dat gratis gebruikers beperkt zijn tot het genereren van afbeeldingen.
Exportopties zijn robuust en ondersteunen MP4 downloads met H.264/H.265-codecs en PNG voor afbeeldingen. Als alternatief kunnen assets direct opnieuw worden geïmporteerd in Studio-projecten voor verdere bewerking. Het platform ondersteunt ook’Image-to-Video’-workflows, waardoor gebruikers gegenereerde afbeeldingen kunnen gebruiken als startframes om de visuele consistentie tussen videoclips te behouden.
Deze aggregatiestrategie stelt ElevenLabs in staat’best-in-class’prestaties te bieden op alle modaliteiten zonder de enorme R&D-kosten te hoeven dragen van het trainen van basisvideomodellen zelf.
Het vormt een aanvulling op hun bestaande portfolio, dat de Eleven Music-generatietool en de Voice Isolator API omvat, waardoor een uitgebreid ecosysteem voor AI-gestuurde media ontstaat. productie.