ElevenLabs 正在從一家專業語音 AI 提供商轉型為綜合性多模式製作中心,將 OpenAI、Google 和 Kling 的高端視頻模型集成到其 Studio 平台中。

今天宣布的更新允許創作者使用受限制的企業級模型(包括 OpenAI 的 Sora 2 Pro 和 Google 的 Veo 3.1)直接與 ElevenLabs 的原生音頻工具一起生成視覺效果。

在一份聲明中, ElevenLabs 團隊強調,此次更新“將最先進的人工智能模型與我們業界領先的語音、聲音和音樂工具相結合”,有效地將一流的生成功能整合到單個訂閱中。

通過在單個時間軸編輯器中聚合第三方視頻生成器,公司將其 Studio 定位為統一的“AI 版 Adobe”,挑戰分散的工作流程,迫使用戶在腳本、語音和視頻製作方面處理單獨的應用程序。

聚合巨頭:新的多模式戰略

ElevenLabs 已正式擴展其“Studio”平台,以包括圖像和視頻生成,這標誌著其從純粹的音頻 AI 公司的根源發生決定性轉變。

而不是嘗試構建專有視頻為了與 Runway 或 Luma 等現有品牌直接競爭,該公司採取了聚合策略。這種方法將 ElevenLabs 定位為第三方巨頭的統一接口層,簡化了對分散工具的訪問。

集成中包括一些業界最令人垂涎​​​​和受限制的模型。用戶現在可以訪問 OpenAI 的 Sora 2 Pro 和 Google 的 Veo 3.1,這些模型在選定的合作夥伴計劃之外的公開部署有限。

[嵌入內容]

這一舉措使 ElevenLabs Studio 成為 Adob​​e Premiere 等傳統非線性編輯器 (NLE) 的直接競爭對手,但它具有生成優先的工作流程,將腳本、語音、音效和視覺效果結合在一個時間軸中。

通過集中這些工具,該公司解決了當前人工智能創意堆棧的摩擦。通常情況下,創作者必須在 Discord、各種 Web 應用程序和本地軟件中生成資產,然後再將其組裝到其他地方。

該平台現在支持在單一環境中從文本提示到最終視頻導出的無縫過渡。

該支點與首席執行官 Mati Staniszewski 提出的構建“一代公司”,超越了獨立文本轉語音服務的商品化風險。

此次擴張建立在公司快速增長和產品多元化的一年之上。正如 Winbuzzer 之前報導的那樣,ElevenLabs 最近在進行 1 億美元的員工收購要約後,其估值翻了一番,達到 66 億美元,這表明投資者對其更廣泛的平台戰略充滿信心。

幕後:Sora、Veo 和 Kling 集成

對於創作者來說,主要吸引力在於集成模型的特定功能。 OpenAI Sora 2 Pro 定位為旗艦視頻型號,提供 720p 或 1080p 分辨率的高保真輸出。

它支持 4、8 或 12 秒的固定持續時間,並針對電影效果和復雜運動進行了優化。然而,這種性能的代價是每代 12,000 個積分,並且目前缺乏對最終幀參考的支持。

Google Veo 3.1 提供了專注於創意控制的專業級替代方案。它提供諸如負面提示和 4-8 秒剪輯的專用聲音控制等功能,費用為 8,000 積分。該模型特別適合需要視覺輸出精確方向而不僅僅是原始保真度的用戶。

Kling 2.5 因其在物理模擬和流體動力學方面的優勢而被納入其中。它可以在 5 或 10 秒的時間內生成 1080p 視頻,並獲得 3,500 個積分。雖然它缺乏 Google 模型的聲音控制,但其較低的信用成本和特定的物理功能使其成為動態場景的可行選擇。

除了視頻之外,該平台還集成了各種圖像模型。 Flux 1 Kontext Pro 提供先進的風格控制,而 Google Nano Banana 則針對速度進行了優化。 Seedream 4 可用於生成一致的多鏡頭序列,這對於講故事的項目至關重要。

為了確保這些資源適用於高分辨率顯示,用戶可以使用 Topaz Upscale 模型將輸出放大至 4 倍。該套件還包括專門的實用程序模型,例如用於製作靜態圖像動畫的 Omnihuman 1.5 和用於為現有視頻配音的 Veed LipSync。

這些工具彌合了視覺生成與 ElevenLabs 核心音頻技術之間的差距,其中包括最近推出的 Scribe v2 實時語音到文本模型。

Studio 工作流程和創作成本

Studio 界面引入了一個統一的時間線,用戶可以在其中上傳視頻來自動生成腳本或編寫腳本來生成相應的視覺效果。

一個關鍵功能是“語音校正”工作流程,其中編輯文本轉錄會自動重新生成相應的畫外音片段。此功能顯著簡化了修訂過程,無需重新錄製或手動拼接音頻。

信用消耗變化很大,為用戶創造了複雜的經濟。使用 Sora 2 Pro 生成單個高端視頻需要 12,000 個積分,遠高於標準音頻或圖像任務。

產品指南指出“視頻生成僅適用於付費計劃”,這意味著免費用戶僅限於圖像生成功能。

導出選項非常強大,支持 MP4使用 H.264/H.265 編解碼器和 PNG 圖像下載。或者,可以將資源直接重新導入到 Studio 項目中以進行進一步編輯。該平台還支持“圖像到視頻”工作流程,允許用戶使用生成的圖像作為起始幀,以保持視頻剪輯之間的視覺一致性。

這種聚合策略使 ElevenLabs 能夠在所有模式中提供“一流”的性能,而無需承擔訓練基礎視頻模型本身的大量研發成本。

它補充了他們現有的產品組合,其中包括 Eleven Music 生成工具和 Voice Isolator API,為人工智能驅動的媒體創建了一個全面的生態系統生產。

Categories: IT Info