Google は、Google I/O 2024 で最新の AI メディア作成モデル Veo と Imagen 3 を発表しました。Veo は高品質の 1080p ビデオを作成するように設計されており、Imagen 3 は同社の最新のテキストから画像へのフレームワークです。これらのモデルは、AI 生成メディアで有名になった OpenAI の Sora ビデオ モデルや Dall-E 3 と競合することを目的としています。

Veo の高度な機能

Google によると、Veo は自然言語と視覚的意味論について高度な理解を備えており、1 分を超えるビデオを作成することができます。 AI はタイムラプスなどの映画技術を理解し、現実世界の物理をシミュレートできます。 Veo はテキスト、画像、ビデオ プロンプトからビデオを生成できるため、幅広いクリエイティブな出力が可能になります。 Google DeepMind CEO の Demis Hassabis 氏は、追加のプロンプトを使用してビデオの結果を絞り込み、クリエイティブ プロセスを強化できると述べました。

Veo の機能を実証するために、Google は ドナルド グローバーと彼のクリエイティブ スタジオ、 ギルガ。プロモーション ビデオの中で、グローバー氏と彼のチームはテキスト プロンプトを使用して、ヨーロッパの住宅に到着するオープンカーや海を滑空するヨットなどのシーンを生成します。グローバー氏は、これらのツールの中核はストーリーテリングであることを強調し、そのようなテクノロジーを使えば誰もがディレクターになれることを示唆しています。

[埋め込みコンテンツ]

コンテンツ作成における Veo の未来

Googleは、Veo がストーリーボードや長いシーンを作成できるようにする追加機能を検討しています。同社は、選ばれた映画制作者やクリエイターを招待して、このモデルを実験して、どのようにクリエイティブを最適にサポートできるかを決定しています。一部の Veo 機能は、VideoFX 内のプライベート プレビューで選択したクリエイターが利用できるようになります。 Google は、将来、Veo の機能の一部を YouTube ショートに追加する予定です。

Imagen 3 がテキストから画像への生成を強化

Google の最新の Imagen 3 text-to-image モデルは、アーティファクトの少ない、より高品質で詳細なフォトリアリスティックな画像を約束します。 Google は、Imagen 3 は以前のバージョンよりもテキストを効率的に処理し、拡張プロンプトからの複雑な詳細を管理できると主張しています。このモデルは、AI 生成画像の機能でよく知られている OpenAI の Dall-E 3 に対する強力な競合相手になると予想されています。

レコーディング アーティスト向けの音楽 AI サンドボックス

Veo と Imagen 3 に加えて、Google は Music AI Sandbox を導入しました。これはアーティストのレコーディングを目的とした一連のツールで、曲やビートの作成を支援します。 Wyclef Jean や Bjorn などのアーティストは、Google と協力してこれらのツールをテストしています。 Music AI サンドボックスはすでにいくつかの興味深いデモンストレーションを行っていますが、具体的な詳細は限られています。

[埋め込みコンテンツ]

Google の新しい AI ツールは、AI テクノロジーへの同社の多額の投資を反映しており、業界をリードすることを目指しています。コンピューティングにおける次の大きな進歩。 Veo は現在、一部のクリエイター向けに Google の VideoFX ツール内で利用できます。まもなく YouTube ショートやその他のサービスに統合される予定です。 Google はここ数年、Phenaki、Imagen Video、Lumiere など、いくつかのビデオ生成モデルを開発してきました。

OpenAI との競合

OpenAI はすでに売り込んでいます独自の AI ビデオ ジェネレーター「Sora」をハリウッドに公開し、今年後半に一般公開する予定です。 OpenAI は、Sora モデルを Adob​​e Premiere Pro などのビデオ編集アプリケーション内で直接利用できるようにする可能性があります。この競争環境は、メディア作成における AI の急速な進化と重要性の増大を浮き彫りにしています。

Categories: IT Info