ElevenLabs si sta trasformando da fornitore specializzato di intelligenza artificiale vocale in un hub di produzione multimodale completo, integrando modelli video di fascia alta di OpenAI, Google e Kling nella sua piattaforma Studio.
Annunciato oggi, l’aggiornamento consente ai creatori di generare immagini utilizzando modelli limitati di livello aziendale, tra cui Sora 2 Pro di OpenAI e Veo 3.1 di Google, direttamente insieme agli strumenti audio nativi di ElevenLabs.
In una dichiarazione, il Il team di ElevenLabs ha sottolineato che l’aggiornamento”unifica i modelli di intelligenza artificiale più avanzati con i nostri strumenti vocali, audio e musicali leader del settore”, consolidando efficacemente le migliori capacità generative della categoria in un unico abbonamento.
Aggregando generatori video di terze parti in un unico editor di timeline, l’azienda sta posizionando il suo Studio come un”Adobe per l’intelligenza artificiale”unificato, sfidando flussi di lavoro frammentati che costringono gli utenti a destreggiarsi tra app separate per la produzione di script, voce e video.
Aggregare i giganti: una nuova strategia multimodale
ElevenLabs ha ufficialmente ampliato la sua piattaforma”Studio”per includere la generazione di immagini e video, segnando un cambiamento decisivo rispetto alle sue radici come società di intelligenza artificiale audio pura.
Piuttosto che tentare di costruire modelli video proprietari da zero per competere direttamente con operatori storici come Runway o Luma, l’azienda ha adottato una strategia di aggregazione. Questo approccio posiziona ElevenLabs come un livello di interfaccia unificato per giganti di terze parti, semplificando l’accesso a strumenti frammentati.
Nell’integrazione sono inclusi alcuni dei modelli più ambiti e limitati del settore. Gli utenti possono ora accedere a Sora 2 Pro di OpenAI e Veo 3.1 di Google, modelli che hanno visto un’implementazione pubblica limitata al di fuori di programmi partner selezionati.
[contenuto incorporato]
Questa mossa posiziona ElevenLabs Studio come concorrente diretto dei tradizionali editor non lineari (NLE) come Adobe Premiere, ma con un flusso di lavoro generativo che combina script, voce, effetti sonori e immagini in un’unica sequenza temporale.
Centralizzando questi strumenti, il l’azienda affronta l’attrito dell’attuale stack creativo dell’intelligenza artificiale. In genere, i creatori devono generare risorse su Discord, varie app Web e software locale prima di assemblarle altrove.
La piattaforma ora supporta una transizione fluida dalla richiesta di testo all’esportazione del video finale all’interno di un unico ambiente.
Il perno è in linea con quanto affermato dal CEO Mati Staniszewski visione di costruire una”azienda generazionale”, andando oltre i rischi di mercificazione dei servizi di sintesi vocale autonomi.
L’espansione si basa su un anno di rapida crescita e diversificazione dei prodotti per l’azienda. Come precedentemente spiegato da Winbuzzer, ElevenLabs ha recentemente raddoppiato la sua valutazione portandola a 6,6 miliardi di dollari a seguito di un’offerta pubblica di 100 milioni di dollari da parte dei dipendenti, segnalando una forte fiducia degli investitori nella sua strategia di piattaforma più ampia.
Sotto il cofano: integrazione di Sora, Veo e Kling
Per i creatori, l’attrattiva principale risiede nelle capacità specifiche dei modelli integrati. OpenAI Sora 2 Pro è posizionato come il modello video di punta, offrendo output ad alta fedeltà con risoluzioni 720p o 1080p.
Supporta durate fisse di 4, 8 o 12 secondi ed è ottimizzato per risultati cinematografici e movimenti complessi. Tuttavia, questa prestazione ha un costo elevato di 12.000 crediti per generazione e attualmente manca il supporto per i riferimenti end-frame.
Google Veo 3.1 offre un’alternativa di livello professionale incentrata sul controllo creativo. Fornisce funzionalità come suggerimenti negativi e controllo audio dedicato per clip da 4-8 secondi al costo di 8.000 crediti. Questo modello è particolarmente adatto per gli utenti che necessitano di una direzione precisa sull’output visivo piuttosto che solo di pura fedeltà.
Kling 2.5 è incluso per la sua forza nella simulazione fisica e nella dinamica dei fluidi. Genera video 1080p in raffiche di 5 o 10 secondi per 3.500 crediti. Sebbene manchi del controllo del suono dei modelli Google, il suo costo di credito inferiore e le capacità fisiche specifiche lo rendono un’opzione praticabile per le scene dinamiche.
Oltre al video, la piattaforma integra una vasta gamma di modelli di immagini. Flux 1 Kontext Pro offre un controllo avanzato dello stile, mentre Google Nano Banana è ottimizzato per la velocità. Seedream 4 è disponibile per generare sequenze multi-shot coerenti, cruciali per i progetti di narrazione.
Per garantire che queste risorse siano utilizzabili per display ad alta risoluzione, gli utenti possono eseguire l’upscaling degli output fino a 4 volte utilizzando i modelli Topaz Upscale. La suite include anche modelli di utilità specializzati come Omnihuman 1.5 per l’animazione di immagini statiche e Veed LipSync per il doppiaggio di video esistenti.
Questi strumenti colmano il divario tra la generazione visiva e la tecnologia audio principale di ElevenLabs, che include il modello di sintesi vocale Scribe v2 Realtime lanciato di recente.
Il flusso di lavoro di Studio e il costo di creazione
L’interfaccia di Studio introduce una sequenza temporale unificata in cui gli utenti possono caricare un video per generare automaticamente uno script o scrivere uno script per generare immagini corrispondenti.
Una caratteristica fondamentale è il flusso di lavoro”Correzione vocale”, in cui la modifica della trascrizione del testo rigenera automaticamente il segmento della voce fuori campo corrispondente. Questa funzionalità semplifica notevolmente il processo di revisione, eliminando la necessità di riregistrare o unire manualmente l’audio.
Il consumo di credito è altamente variabile, creando un’economia complessa per gli utenti. Una singola generazione di video di fascia alta utilizzando Sora 2 Pro costa 12.000 crediti, molto più delle attività standard di audio o immagini.
La guida del prodotto rileva che”la generazione di video è disponibile solo su piani a pagamento”, il che significa che gli utenti gratuiti sono limitati alle funzionalità di generazione di immagini.
Le opzioni di esportazione sono robuste e supportano Download MP4 con codec H.264/H.265 e PNG per le immagini. In alternativa, le risorse possono essere reimportate direttamente nei progetti di Studio per ulteriori modifiche. La piattaforma supporta inoltre flussi di lavoro”da immagine a video”, consentendo agli utenti di utilizzare le immagini generate come fotogrammi iniziali per mantenere la coerenza visiva tra i clip video.
Questa strategia di aggregazione consente a ElevenLabs di offrire prestazioni”best-in-class”in tutte le modalità senza sostenere gli ingenti costi di ricerca e sviluppo per la formazione dei modelli video di base stessi.
Completa il loro portafoglio esistente, che include lo strumento di generazione Eleven Music e l’API Voice Isolator, creando un ecosistema completo per i media basati sull’intelligenza artificiale. produzione.