Google は、8 月に「Nano Banana」として話題になった強力な AI モデルである Gemini 2.5 Flash Image を正式にリリースし、世界中の開発者と企業が一般利用できるようにしました。

10 月 2 日に発表されたこの実稼働対応ツールは、Gemini API、Google AI Studio、Vertex AI 経由でアクセスできるようになりました。

このメジャー リリースでは、次のような新しいクリエイティブ機能が導入されています。 10 のアスペクト比と文字の一貫性の強化により、よりリアルな編集が可能になりました。

この動きにより、OpenAI や Adobe などの競合他社に対する Google の挑戦が強化され、

新しいクリエイティブ コントロールと早期導入者の成功

このモデルは、クラウドソーシング評価プラットフォーム LMArena に「ナノバナナ」として匿名で最初に登場し、すぐに世界でトップクラスの画像編集モデルになりました。

この戦略は、正式なブランディングが行われる前に、大きな自然な話題を生み出しました。

10 月 2 日の一般公開リリースでも、制作に重点を置いた重要なアップグレードが行われています。

重要な機能強化は、映画のような風景から縦型のソーシャル メディア フォーマットに至るまで、10 の異なるアスペクト比のサポートです。これにより、クリエイターはコンテンツを特定のプラットフォームに合わせて調整できるようになります。

このアップデートにより、モデルの中核となる長所である「キャラクターの一貫性」も洗練されます。この機能は、大幅な編集を行っても被写体の類似性を維持するため、多くの AI モデルに共通する障害点に対処します。

Google DeepMind のプロダクト リードであるニコール ブリヒトヴァ氏は、「これまで専門的なツールが必要だった機能を、日常のクリエイターの手に渡せるようになりました。これによって創造性が爆発的に爆発するのを見るのは感動的です。」

モデルのネイティブ マルチモーダル機能 テキストと画像を同時に処理できます。これは、単にテキスト プロンプトから生成するのではなく、既存の画像を理解し、クリエイティブ プロセスに組み込むことができることを意味します。

これにより、会話を通じてより正確で一貫性のある編集が可能になります。

早期採用者はすでにこれらの機能を統合しています。 AI スタートアップの Cartwheel は、このモデルがあらゆるカメラ アングルからの複雑なポーズを処理できる独自の機能を備えていることを発見しました。

共同創設者の Andrew Carr は Google を称賛し、「他のモデルでは、任意のカメラ アングルからキャラクターをレンダリングしたり、『世界の知識』を犠牲にすることなくポーズへの忠実性を維持したりすることができませんでした。新しい Gemini 2.5 Flash Image モデルは、その両方を提供できる最初のモデルでした。」

Google は価格を次のように設定しました。 画像あたり 0.039 ドル、出力トークン 100 万あたり 30 ドルで、Vertex AI プラットフォームを通じて企業の導入を促進することを目的とした競争力のある料金です。

混雑した AI 画像競争における計算された動き

この立ち上げは、熾烈な競争市場への計算された対応です。 OpenAI が GPT-4o 画像ジェネレーターを ChatGPT に直接統合した後、圧力はさらに強まり、ユーザー エンゲージメントが大幅に増加しました。

Google の戦略は、チャット アプリ内の幅広いユーザーを直接ターゲットにし、大量採用を目指しています。

さらに最近では、競争圧力が全体的に激化しています。 ByteDance は、「Nano Banana」への直接の挑戦者として Seedream 4.0 モデルを発表しました。

Meta も AI 画像生成の戦略を転換し、社内の挫折の後、Midjourney から技術のライセンス供与を選択しました。

市場では、フォトリアリズムに焦点を当てた Black Forest Labs やテキスト レンダリングに優れた Alibaba のモデルなど、専門的なプレーヤーの出現が見られています。

新たな安全対策で創造力のバランス

Google の取り組みは、AI 画像生成での過去のつまずきを受けて行われました。

同社は、Gemini の初期バージョンが歴史的に不正確な人物画像を生成したときに反発に直面し、機能の一時停止を余儀なくされました。この新しいリリースには、より堅牢な安全プロトコルが伴います。

増大するディープフェイクの脅威に対処するため、Google は生成されたすべてのコンテンツに透かしを入れています。

画像には、AI によって生成されたものであることを明確に示すために、目に見えるマーカーと目に見えない暗号化 SynthID 透かしの両方が含まれます。これは、Midjourney のような競合他社を巻き込んだ法廷闘争とは対照的です。

Midjourney は現在、トレーニング データをめぐってディズニーとユニバーサルからの注目を集める著作権訴訟に直面しています。

この訴訟は、すべての AI 企業が対処しなければならない複雑な法的および倫理的状況を浮き彫りにしており、Google の積極的な透かしを重要な戦略的決定としています。

ユーザーフレンドリーな編集ツールを同社の主力 AI 製品に組み込むことで、Google は Gemini を単なるチャットボットとしてではなく、Sora 2 AI ビデオ モデルを発表したばかりの OpenAI と同様の包括的なクリエイティブ エンジンとしてますます位置付けています。

この動きは、急速に進化する生成 AI 分野において、アクセシビリティと信頼性が主流のユーザーを獲得できるという明らかな賭けです。

Categories: IT Info