Google は、生成 AI ツールに対する一連の画期的なアップデートを発表し、テクノロジーを通じて創造性を高める取り組みを示しました。これらの発表の中心となるのは、4K 解像度の出力を生成できる同社の次世代 AI ビデオ ジェネレーターである Veo 2 です。
Veo 2 に加わるのは、更新された Imagen 3 画像ジェネレーターと、ユーザーが画像ベースのプロンプトを使用してビジュアルをリミックスできる Whisk と呼ばれる新しいツールです。これらのツールを組み合わせることで、AI クリエイティビティの競争分野における Google の野望が大きく前進し、コンテンツ クリエーター、アーティスト、企業を同様にターゲットとすることができます。
Veo 2: 4K での高度なビデオ生成
Strong>
Veo 2 は、今年初めに発売された前身である Veo の基盤を基にして構築されており、ビデオのリアリズムとユーザー コントロールが大幅に向上しています。新しいモデルは 4K 解像度をサポートし、鮮明なビジュアルとよりスムーズな動きを実現し、前バージョンの 1080p 制限からの明確なアップグレードを実現します。
Veo 2 では、解像度を超えて、ユーザーが非常に特殊な映画のような構成を作成できる機能が導入されています。
「広角効果を得るには 18mm レンズを使用します」または「被写界深度が浅い被写体に焦点を当てます」などのプロンプトにより、生成されたビデオの視覚的な美しさを微調整することができます。
Google は、このモデルが「映画撮影の言語」でトレーニングされており、これまでプロの映画製作者の領域であった複雑な視覚効果を再現できると説明しています。
デモンストレーションでは、Veo 2 では、複雑な視覚的シナリオを正確に処理する能力を紹介しました。その一例では、ミツバチの群れの中で働く養蜂家が登場し、ミツバチの動きと羽の光の反射が本物のような正確さでレンダリングされました。
[埋め込みコンテンツ]
別のクリップでは、科学者が顕微鏡を覗き込む様子が描かれており、カメラは彼女の激しい集中力と研究室の蛍光灯などの微妙な環境の詳細を捉えていました。
Google によると、 Veo 2 は、現実世界の物理学と人間の動きや表現の微妙さをより深く理解し、リアリズムを向上させ、AI ビデオ生成における共通の課題を解決することを目指しています。
[埋め込みコンテンツ]
リアリズムの改善は、次のような問題への対処にも及びます。よくある落とし穴歪んだ人物、非現実的な動き、無関係な視覚的アーティファクトなどの AI ビデオ ジェネレーターの機能。これらの課題を管理できる Veo 2 の機能により、Veo 2 は、高品質の AI 生成ビデオ コンテンツを求めるクリエイティブなプロフェッショナルにとって主要なツールとして位置付けられます。
SynthID: AI コンテンツの倫理的保護
AI 生成コンテンツの悪用に関する倫理的懸念に対処するために、Veo 2 には Google の SynthID 透かしテクノロジーが統合されています。この目に見えないデジタル署名は出力に直接埋め込まれているため、視覚的な品質を損なうことなく AI で生成されたビデオを識別できます。
SynthID は、誤った情報や悪意のある操作などのリスクを軽減し、AI ツールが責任を持って使用されるように設計されています。 Google は発表の中で、SynthID 透かしなどの機能によってサポートされ、Veo 2 の出力の信頼性とトレーサビリティを確保することに注力していることを強調しました。
目に見える透かしとは異なり、SynthID は目立たずに動作するため、より実用的になると Google は主張しています。透明性を保ちながらプロユースに対応します。ただし、このアプローチは、潜在的な悪用を検出するためにコンテンツを積極的に検証するユーザーまたはプラットフォームに依存しているため、施行に関して疑問も生じます。
Google の SynthID の実装は、Google が積極的に参加している Content Authenticity Initiative やオープンソースの C2PA 透かしプロトコルなど、テクノロジー業界内の広範な取り組みと連携しています。
Veo 2 は現在、Google Labs の VideoFX プラットフォームを通じてユーザーがアクセスできますが、さらに広範囲に展開する予定です。同社はまた、このテクノロジーを YouTube ショートに統合し、プラットフォーム上のクリエイターが高品質の AI 主導のビデオを直接生成できるようにする計画も発表しました。
現時点では、利用可能性を拡大するための Google の慎重なアプローチを反映して、アクセスは待機リスト システムによって制限されたままです。
AI ビデオの競争環境
Google のビデオ生成における進歩は、AI 分野での競争が激化する中で実現しました。 OpenAI は最近、Sora ビデオ ジェネレーターを発表しましたが、その機能は依然として 1080p の解像度と最大 20 秒の短いクリップ時間に制限されています。
[埋め込みコンテンツ]
対照的に、Veo 2 は最大 4K 解像度をサポートし、持続時間が数分に及ぶ長いクリップを生成できます。 Google は、内部評価の際、ユーザーの 59% が、OpenAI のツールのアップグレード版である Sora Turbo の出力よりも Veo 2 の出力を好んだと報告しました。
Google によると、内部評価のユーザーの 59% は、Veo 2 の出力を好んだとのことです。技術的優位性を強調する Sora Turbo。
生成 AI 分野のもう 1 つの主要企業である Runway もビデオ生成で進歩を遂げていますが、依然として限定的です。 720p出力。これにより、Google の Veo 2 はプロレベルのビデオ作成のための最も先進的なツールとして位置付けられます。
リアリズム、ユーザー コントロール、高品質の出力に対する同社の戦略的焦点は、AI 主導のクリエイティブ ツールの成長市場で大きなシェアを獲得するという同社の意図を強調しています。
[埋め込みコンテンツ]
Imagen 3: AI 画像生成における芸術的可能性の拡大
Google は、AI 画像生成モデルの最新版である Imagen 3 も改良しました。 Imagen 3 のアップデートでは、よりシャープなテクスチャ、改善された構成バランスが導入され、写実的な描写から印象派の解釈に至るまで、多様な芸術スタイルのサポートが拡張されています。
Imagen 3 の際立った機能の 1 つは、画像をレンダリングする機能です。ユーザーのプロンプトに対する忠実性が高まります。このモデルは、提供された説明とより正確に一致する出力を生成するようになり、以前のバージョンを悩ませていた曖昧さが軽減されました。
Imagen 3 はさまざまな芸術的なスタイルやシナリオに適応できるため、プロのデザイナーからクリエイティブなプロジェクトを模索する愛好家まで、幅広いユーザーにとって魅力的なツールとなっています。このモデルは、芸術的な完全性と迅速な遵守のバランスをとった画像を生成することに優れています。
Google が共有した一連の例では、Imagen 3 は、霧のかかった 1940 年代の駅のシーン、飛行中のハチドリの形に彫刻されたイチゴ、陶磁器のポットをホイールで彫刻している高解像度のマクロ撮影。
各例は、光と影の遊びやマテリアルの複雑なテクスチャなど、細部をキャプチャするモデルの能力を強調しています。
Google は、Imagen 3 が次のような幅広い芸術スタイルをサポートしていることを強調しました。本物のような画像、抽象的なコンセプト、アニメ風のビジュアルを採用し、多様なクリエイティブ ニーズを満たす柔軟性を提供します。
Whisk: ビジュアル リミックスの再定義
Google も導入Whisk と呼ばれる新しいツール。ユーザーはこれらを組み合わせることで、AI 主導の創造性への新しいアプローチを提供します。
従来のテキストベースのシステムとは異なり、Whisk を使用すると、ユーザーは画像をアップロードして主題、シーン、またはスタイルを定義でき、ツールはそれを処理して一貫した出力を作成します。このため、大量のテキストによる説明に頼らずに、アイデアのプロトタイプを迅速に作成したいユーザーにとって理想的です。
Whisk は、アップロードされた画像を分析してキャプションを付けて主要な特徴を抽出する、Google の Gemini モデルの機能を活用します。これらのキャプションは Imagen 3 に入力され、ツールが提供された視覚要素の独自の組み合わせを生成できるようになります。
あるデモンストレーションでは、Whisk を使用して、ジャングルを背景にしたビンテージ バイクの画像と 1980 年代のアニメにインスパイアされたアート スタイルを組み合わせました。その結果、3 つの要素すべてがシームレスにブレンドされた、一貫した視覚的構成が生まれました。ユーザーは、プロンプトを調整したり、個々の機能を微調整したりすることで、出力をさらに絞り込むことができ、創造的な探索への反復的なアプローチを提供します。
[埋め込みコンテンツ]
Google は、発表の中で Whisk の背後にある意図を次のように説明しました。これにより、視覚的なアイデアが簡素化され、ユーザーがコンセプトを試したり、クリエイティブなビジョンを洗練したりすることが容易になります。」
Whisk は、創造性と倫理的責任のバランスをとる Google の取り組みの別の側面を表しています。ユーザーが視覚的なプロンプトを組み合わせることで、このツールは創造的な実験の新たな可能性をもたらします。
ただし、Whisk はアップロードされた画像の正確なレプリカを作成しないため、アップロードされた画像に依存するという問題が生じます。主要な特徴を抽出して新しい構成を生成するため、機密要素や著作権で保護された要素が誤って複製される可能性があります。
世界的に広く利用可能ですが、制限があります
Imagen 3 は、Google Labs の ImageFX プラットフォームを通じて、ドイツを除く世界中で利用できるようになりました。 Googleはこの制限の理由として通常の段階的展開戦略を挙げているが、業界アナリストは欧州連合のAI法の影響の可能性を指摘している。
この法律は、著作権で保護された素材が含まれているかどうかを含め、AI モデルのトレーニングに使用されるデータセットに関する詳細情報を開示することを企業に義務付けています。
Google は Imagen 3 のトレーニング データの詳細を確認していませんが、以前のレポートでは、おそらく YouTube コンテンツを含む、公開されている画像を含むデータセットがモデルの開発に貢献したことが示唆されています。
これは透明性の欠如はアーティストや著作権擁護者の間で懸念を引き起こしており、明示的な許可なしに公的に入手可能な画像を使用することは倫理的および法的問題を引き起こすと主張している。
Google は公式声明の中で、透明性への取り組みと、AI トレーニング データの倫理基準の作成を目的とした取り組みへの関与を改めて表明しました。
倫理的課題と競争市場のダイナミクス
strong>
Google が Veo 2、Imagen 3、Whisk で生成 AI の限界を押し広げているため、倫理的配慮が大きな課題となっています。これらのツールがますます洗練されるにつれ、使用されるトレーニング データ、悪用の可能性、イノベーションと責任のバランスについて疑問が生じます。
EU の AI 法や世界中の同様の規制がテクノロジー企業にさらなる透明性と説明責任を求めているため、これらの問題は特に重要です。
Google は、データセットの利用については口を閉ざしたままです。 Veo 2 や Imagen 3 などのモデルをトレーニングするため、アーティスト、著作権擁護者、規制当局からの厳しい監視が行われています。
業界の報告書によると、YouTube ビデオやその他の公開コンテンツがトレーニングに役割を果たした可能性があります。プロセス、この慣行は、AI の知的財産権に関する議論を引き起こしました。批評家は、このようなデータ使用は、特に明示的な同意が得られない場合、クリエイターの著作権を侵害する可能性があると主張しています。
EU AI 法は、著作権で保護された素材がトレーニング データセットの一部であるかどうかの開示を企業に義務付けることで、こうした懸念をさらに強めています。 Google は透明性を重視していると述べていますが、トレーニング データの出所に関する包括的な詳細をまだ提供していません。
Google は公式発表の中で、「AI 開発における倫理的な実践を確保するために、コンテンツ真正性イニシアチブなどの取り組みに積極的に参加しています。」と述べました。
この取り組みには、 SynthID 透かしとオープンソース C2PA プロトコルへの参加は、いずれもコンテンツの信頼性を促進し、悪用を軽減することを目的としています。
クリエイティブ産業への広範な影響
Veo 2、Imagen 3、Whisk などのツールを統合すると、映画制作や広告からデジタル アートやコンテンツ制作に至るまで、さまざまな業界を再構築する可能性があります。
これらのツールは、参入障壁を下げることで、これにより、あらゆるスキル レベルのクリエイターが、かつてはプロのスタジオでしか実現できなかった高品質のビジュアルを制作できるようになります。同時に、クリエイティブな仕事の将来と、文化的および芸術的表現の形成における AI の役割について、重要な疑問が生じています。 p>
映画制作者にとって、Veo 2 は映画のようなビジュアルを生成するためのコスト効率の高い代替手段を提供し、Imagen 3 と Whisk は芸術的なスタイルやアイデアを探求するための新しい手段を提供します。
しかし、AI ツールの使用は、撮影監督、デザイナー、イラストレーターなどの従来のクリエイティブな役割に取って代わられるのではないかという懸念も引き起こしています。イノベーションの実現と人間の創造性の完全性の維持の間でバランスをとることは、Google のようなテクノロジーの開発を続ける企業にとって重要な課題となるでしょう。
Google の最新のツール スイートは、アクセシビリティを優先する AI のビジョンを反映しています。 、柔軟性、責任感。同社は、4K ビデオの生成、画像のリアリズムの強化、ビジュアル リミックスなどの進歩を通じて、AI イノベーションに伴う倫理的および技術的課題の一部に対処しながら、クリエイターに力を与えることを目指しています。
strong>
Google が Veo 2、Imagen 3、Whisk で生成 AI の限界を押し広げているため、倫理的配慮が大きな課題となっています。これらのツールがますます洗練されるにつれ、使用されるトレーニング データ、悪用の可能性、イノベーションと責任のバランスについて疑問が生じます。
EU の AI 法や世界中の同様の規制がテクノロジー企業にさらなる透明性と説明責任を求めているため、これらの問題は特に重要です。
Google は、データセットの利用については口を閉ざしたままです。 Veo 2 や Imagen 3 などのモデルをトレーニングするため、アーティスト、著作権擁護者、規制当局からの厳しい監視が行われています。
業界の報告書によると、YouTube ビデオやその他の公開コンテンツがトレーニングに役割を果たした可能性があります。プロセス、この慣行は、AI の知的財産権に関する議論を引き起こしました。批評家は、このようなデータ使用は、特に明示的な同意が得られない場合、クリエイターの著作権を侵害する可能性があると主張しています。
EU AI 法は、著作権で保護された素材がトレーニング データセットの一部であるかどうかの開示を企業に義務付けることで、こうした懸念をさらに強めています。 Google は透明性を重視していると述べていますが、トレーニング データの出所に関する包括的な詳細をまだ提供していません。
Google は公式発表の中で、「AI 開発における倫理的な実践を確保するために、コンテンツ真正性イニシアチブなどの取り組みに積極的に参加しています。」と述べました。
この取り組みには、 SynthID 透かしとオープンソース C2PA プロトコルへの参加は、いずれもコンテンツの信頼性を促進し、悪用を軽減することを目的としています。
クリエイティブ産業への広範な影響
Veo 2、Imagen 3、Whisk などのツールを統合すると、映画制作や広告からデジタル アートやコンテンツ制作に至るまで、さまざまな業界を再構築する可能性があります。
これらのツールは、参入障壁を下げることで、これにより、あらゆるスキル レベルのクリエイターが、かつてはプロのスタジオでしか実現できなかった高品質のビジュアルを制作できるようになります。同時に、クリエイティブな仕事の将来と、文化的および芸術的表現の形成における AI の役割について、重要な疑問が生じています。 p>
映画制作者にとって、Veo 2 は映画のようなビジュアルを生成するためのコスト効率の高い代替手段を提供し、Imagen 3 と Whisk は芸術的なスタイルやアイデアを探求するための新しい手段を提供します。
しかし、AI ツールの使用は、撮影監督、デザイナー、イラストレーターなどの従来のクリエイティブな役割に取って代わられるのではないかという懸念も引き起こしています。イノベーションの実現と人間の創造性の完全性の維持の間でバランスをとることは、Google のようなテクノロジーの開発を続ける企業にとって重要な課題となるでしょう。
Google の最新のツール スイートは、アクセシビリティを優先する AI のビジョンを反映しています。 、柔軟性、責任感。同社は、4K ビデオの生成、画像のリアリズムの強化、ビジュアル リミックスなどの進歩を通じて、AI イノベーションに伴う倫理的および技術的課題の一部に対処しながら、クリエイターに力を与えることを目指しています。