イレブンラボは、専門の音声 AI プロバイダーから、OpenAI、Google、Kling のハイエンド ビデオ モデルをスタジオ プラットフォームに統合する、包括的なマルチモーダル制作ハブに変革しています。
本日発表されたこのアップデートにより、クリエイターは、OpenAI の Sora 2 Pro や Google の Veo 3.1 などの制限されたエンタープライズ グレードのモデルを、イレブンラボのネイティブ オーディオ ツールと直接併用してビジュアルを生成できるようになります。
声明の中で、イレブンラボ チームは、このアップデートにより「最先端の AI モデルと業界をリードする当社の音声、サウンド、音楽ツールが統合され」、クラス最高の生成機能が 1 つのサブスクリプションに効果的に統合されることを強調しました。
単一のタイムライン エディター内にサードパーティのビデオ ジェネレーターを集約することで、同社は、Studio を統合された「Adobe for AI」として位置付けており、ユーザーがスクリプト、音声、ビデオ制作用に別々のアプリをやりくりすることを強いる断片化したワークフローに挑戦しています。
巨人の集約: 新しいマルチモーダル戦略
イレブンラボは、画像とビデオの生成を含むように「Studio」プラットフォームを正式に拡張し、純粋なオーディオ AI 企業としてのルーツからの決定的な転換を示しています。
同社は、Runway や Luma などの既存企業と直接競合するために独自のビデオ モデルを一から構築しようとするのではなく、アグリゲーター戦略を採用しました。このアプローチにより、イレブンラボはサードパーティの大手企業向けの統合インターフェイス レイヤーとして位置づけられ、断片化されたツールへのアクセスが合理化されます。
統合には、業界で最も切望され、制限されているモデルの一部が含まれています。ユーザーは、一部のパートナー プログラム以外で限定的に公開されていたモデルである OpenAI の Sora 2 Pro と Google の Veo 3.1 にアクセスできるようになりました。
[埋め込みコンテンツ]
この動きにより、イレブンラボスタジオは Adobe Premiere のような従来のノンリニア エディター (NLE) の直接の競合相手になりますが、スクリプト、音声、サウンド効果、ビジュアルを 1 つのタイムラインで組み合わせるジェネレーティブファーストのワークフローを備えています。
投稿者これらのツールを一元化することで、同社は現在の AI クリエイティブ スタックの摩擦に対処します。通常、クリエイターは、他の場所でアセンブルする前に、Discord、さまざまな Web アプリ、ローカル ソフトウェア全体でアセットを生成する必要があります。
プラットフォームは、単一環境内でのテキスト プロンプトから最終的なビデオ エクスポートまでのシームレスな移行をサポートするようになりました。
ピボットは CEO の Mati と一致しています。スタニシェフスキー氏が述べたビジョンは、スタンドアロンのテキスト読み上げサービスのコモディティ化リスクを乗り越え、「世代を代表する企業」を構築するというものです。
今回の拡大は、同社の急速な成長と製品多様化の 1 年を基礎にしています。以前 Winbuzzer で取り上げられたように、イレブンラボは最近、1 億ドルの従業員公開買い付けを受けて評価額を 66 億ドルに倍増しました。これは、同社の広範なプラットフォーム戦略に対する投資家の強い信頼を示しています。
内部: Sora、Veo、および Kling の統合
クリエイターにとって、主な魅力は統合モデルの特定の機能にあります。 OpenAI Sora 2 Pro は、フラッグシップ ビデオ モデルとして位置付けられており、720p または 1080p の解像度で高忠実度の出力を提供します。
4、8、または 12 秒の固定時間をサポートし、映画のような結果や複雑なモーション向けに最適化されています。ただし、このパフォーマンスには 1 世代あたり 12,000 クレジットという高額なコストがかかり、現在エンドフレーム参照のサポートが不足しています。
Google Veo 3.1 は、クリエイティブ コントロールに重点を置いたプロフェッショナル グレードの代替機能を提供します。 8,000 クレジットの費用で、ネガティブ プロンプトや 4 ~ 8 秒のクリップ専用のサウンド コントロールなどの機能が提供されます。このモデルは、生の忠実度だけではなく、視覚的な出力に対して正確な指示を必要とするユーザーに特に適しています。
物理シミュレーションと流体力学に優れた Kling 2.5 が含まれています。 3,500 クレジットで 5 秒または 10 秒のバーストで 1080p ビデオを生成します。 Google モデルのようなサウンド コントロールはありませんが、クレジット コストが低く、特定の物理機能があるため、動的なシーンに有効なオプションとなります。
ビデオを超えて、このプラットフォームはさまざまな画像モデルを統合します。 Flux 1 Kontext Pro は高度なスタイル コントロールを提供し、Google Nano Banana は速度のために最適化されています。 Seedream 4 は、ストーリーテリング プロジェクトに不可欠な一貫したマルチショット シーケンスの生成に利用できます。
これらのアセットが高解像度ディスプレイで実行可能であることを確認するために、ユーザーは Topaz Upscale モデルを使用して出力を最大 4 倍までアップスケールできます。このスイートには、静止画像をアニメーション化するための Omnihuman 1.5 や既存のビデオをダビングするための Veed LipSync などの特殊なユーティリティ モデルも含まれています。
これらのツールは、ビジュアル生成と、最近発売された Scribe v2 リアルタイム音声テキスト変換モデルを含む イレブンラボのコア オーディオ テクノロジーとの間のギャップを埋めます。
スタジオ ワークフローと作成コスト
スタジオ インターフェイスには、統合されたユーザーがビデオをアップロードしてスクリプトを自動生成したり、スクリプトを書いて対応するビジュアルを生成したりできるタイムライン。
重要な機能は「スピーチ修正」ワークフローで、テキスト トランスクリプトを編集すると、対応するナレーション セグメントが自動的に再生成されます。この機能により、改訂プロセスが大幅に合理化され、オーディオを再録音したり手動で結合したりする必要がなくなりました。
クレジット消費は非常に変動しやすいため、ユーザーにとって複雑な経済状況が生じます。 Sora 2 Pro を使用したハイエンド ビデオの生成には 12,000 クレジットの費用がかかり、標準的な音声や画像のタスクよりも大幅に高くなります。
製品ガイドには、「ビデオ生成は有料プランでのみ利用可能」と記載されています。これは、無料ユーザーが画像生成機能に制限されていることを意味します。
エクスポート オプションは堅牢で、MP4 ダウンロードをサポートしています。 H.264/H.265 コーデックと画像用の PNG を使用します。あるいは、アセットを Studio プロジェクトに直接再インポートしてさらに編集することもできます。このプラットフォームは「画像からビデオ」ワークフローもサポートしており、ユーザーは生成された画像を開始フレームとして使用して、ビデオ クリップ全体で視覚的な一貫性を維持できます。
この集約戦略により、イレブンラボは、基礎ビデオ モデル自体のトレーニングにかかる膨大な研究開発コストを負担することなく、すべてのモダリティにわたって「クラス最高」のパフォーマンスを提供できます。
これは、イレブン ミュージック生成ツールや音声アイソレーター API を含む同社の既存のポートフォリオを補完し、包括的なエコシステムを構築します。 AI 主導のメディア制作。