Googleは火曜日にGeminiアプリの強力な新しい画像編集モデルを展開しています。 DeepMindによって開発されたこのアップデートでは、ユーザーがより創造的なコントロールと一貫性を提供するように設計された高度な機能を導入し、OpenaiやAdobeなどのライバルに直接挑戦します。

アップグレードは、AIの最も持続的な欠陥の1つを解決することを目的としています。ユーザーは、顔を歪めずに衣装や背景を変更したり、写真を単一のシーンにブレンドしたり、会話の流れを反復的に変更したりすることができます。

この動きは、競合他社とのユーザーギャップを閉じるというGoogleの意図を示しています。新しいモデルは現在、すべてのユーザー向けのGeminiアプリに統合されており、Gemini API、Google AI Studio、およびVertex AIを介して開発者が利用できます。 width=”1032″height=”505″src=”data:image/svg+xml; nitro-empty-id=mtyznzoxmja1-1; base64、phn2zyb2awv3qm94psiwidagmtazmia1md uiihdpzhropsixmdmyiibozwlnahq9ijuwnsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

「Nano-Banana」からAI編集の新しいベンチマークまで

モデルの公開デビューの前に、ステルスで大成功を収めたプレビューがありました。クラウドソーシングされた評価プラットフォームLmarenaで「ナノバナナ」として匿名で登場し、世界のモデル編集モデルになります。 GeminiアプリのリードであるDavid Sharonは、熱狂的なレセプションを強調し、「人々はすでに初期のプレビューでバナナを行ってきました。それは世界のトップ評価の画像編集モデルです。」これは、多くのAIモデルの一般的な障害点に対処します。このモデルでは、背景または衣装を編集することで、被験者の顔を微妙に歪める可能性があります。この更新により、ユーザーは被験者をまったく新しいシナリオに配置できます。さまざまな衣装を試したり、新しい職業を想像したり、さらに10年でどのように登場するかを確認します。彼らはまだ自分のように見えます。ユーザーは複数の写真をブレンドして、新しい複合シーンを作成できるようになりました。たとえば、バスケットボールコートで一緒に完璧な肖像画を生成するために、自分自身と別の犬の写真を撮ることができます。別の強力な機能により、「デザインミキシング」が可能になり、1つの画像のスタイルを別の画像のオブジェクトに適用できます。たとえば、花びらの色とテクスチャを一対の雨ブーツに転送するなどです。

アップデートは、ユーザーがシーケンシャルプロンプトの画像を構築できるマルチターン編集を可能にします。空の部屋から始めてから、ジェミニに壁を塗り、本棚を追加し、ソファを置き、最後に敷物を置くように頼むことができます。 Google Deepmindの製品リードであるNicole Brichtovaは、「私たちは本当に視覚的な質を前進させているだけでなく、指示に従うモデルの能力を推進している創造的なコントロールを強化することであると説明しました。クリエイティブAI。 Openaiが3月にGPT-4O画像ジェネレーターをChatGPTに直接統合した後、圧力は大幅に強化されました。この動きは、モデルのパワーとアクセシビリティを紹介するウイルスミームに燃料を供給され、統合されたAIツールの新しいベンチマークを設定するウイルスミームに拍車をかけられ、ユーザーエンゲージメントの大規模な急増を促進しました。

現職のクリエイティブソフトウェアリーダーAdobeは、旗艦製品であるPhotoshopを積極的に強化しています。同社は最近、追加のオブジェクトの色と照明を自動的に一致させる「ハーモナイズ」、解像度を強化する「生成アップスケール」、および改善された「削除ツール」を含む「ハーモナイズ」など、強力なホタル駆動の機能のトリオを展開しました。 Adobe VPであるDeepa Subramaniamは、このアプローチはユーザーのフィードバックによって推進されており、「これらの新しい革新は、障壁を取り除くためにPhotoshopでツールを進化させる方法を聞くクリエイティブコミュニティとの継続的な会話から生まれたと説明しています。対照的に、Googleのアプローチは、大規模な採用を目指して、チャットアプリ内でより幅広い消費者の視聴者を直接標的にします。

競争上の圧力は、ボード全体で強化され、最大のプレーヤーでさえ適応することを余儀なくされています。メタは最近、内部開発の後退の後に戦略をピボットし、様式化されたAI画像のリーダーであるMidjourneyからテクノロジーをライセンスすることを選択しました。メタのAIチーフであるAlexandr Wangは、この動きを必要に応じて組み立て、最高の製品を提供するために会社が「全面的なアプローチ」をとらなければならないと述べています。ニッチなプレーヤーは、特定の持続的な問題を解決するために浮上しています。たとえば、Black Forest Labsのフラックス。1KREAモデルは、一般的な「AIの外観」と戦い、より本物のフォトリアリズムを実現するように設計されています。同様に、AlibabaのオープンソースQwen-Imageモデルは、ほとんどの生成システムの大きなハードルである読みやすいテキストのレンダリングに優れています。同社は、初期の頃にジェミニが歴史的に不正確な人々のイメージを生み出し、その機能を一時的に一時停止することを強制したとき、大きな反発に直面しました。この新しい発売には、より堅牢な安全プロトコルが伴います。

ディープフェイクと誤報の脅威の増大に対処するために、Googleは生成されたすべてのコンテンツを透かして透かしています。画像には、目に見えるマーカーと目に見えない暗号化合成透かしの両方が含まれており、それらがAIに生成されていることを明確に示しています。 Midjourneyは現在、トレーニングデータをめぐってディズニーとユニバーサルからの有名な著作権訴訟に直面しています。ディズニーのゼネラルカウンセルであるHoracio Gutierrezは、「著作権侵害は著作権侵害であり、A.I。会社によって行われているという事実は、侵害を少なくしていない」と述べています。 AIストラテジストのネイトジョーンズが指摘したように、「リーダーボードの支配を目標として設定した瞬間、現実に直面したときに些細なエクササイズとヒラメのモデルを作成するリスクがあります。」この動きは、ジェミニをチャットボットとしてだけでなく、急速に進化する生成的AIランドスケープの包括的なクリエイティブエンジンとして位置付けています。

Categories: IT Info