Apple は、AI 主導の画像編集を促進するために設計された大規模な公開データセットである Pico-Banana-400K をリリースしました。 10 月 23 日に公開されたこのコレクションには、実際の写真から構築された約 400,000 枚の高品質画像編集が含まれています。
このプロジェクトは、次世代モデルをトレーニングするためのオープンで多様なリソースを提供することで、研究者にとって重要な課題を解決することを目的としています。
注目すべき動きとして、Apple の研究者は競合他社である Google のツールを使用してデータセットを作成しました。彼らは「Nano-Banana」画像エディタを利用して編集を生成し、Gemini 2.5 Pro モデルを利用して品質と精度を確保しました。非営利研究向けに完全なデータセットが GitHub で利用できるようになりました。
研究のボトルネックを解決するための企業横断的な取り組み
驚くべき表示
Pico-Banana-400K データセットの作成は、AI 開発における永続的なボトルネック、つまり実際の画像に基づく大規模で高品質でオープンにアクセスできるデータセットが存在しないことが原因でした。既存のリソースの多くは、完全に合成されているか、人間が厳選した範囲に限定されているか、独自のモデルで構築されており、広範なコミュニティの進歩を妨げています。
Apple の研究者らは、自分たちの目標は「次世代のテキストガイド付き画像編集モデルのトレーニングとベンチマークのための強固な基盤」を作成することであったと述べています。
彼らの論文によると、「Pico-Banana-400K を以前の合成データセットと区別するのは、品質と品質に対する体系的なアプローチです。」
チームは、OpenImages コレクションからオリジナルの写真を入手し、Google の強力な Nano-Banana モデル (現在は正式に Gemini 2.5 Flash Image として知られています) を使用して、膨大な編集を生成しました。
2 番目の Google モデルである Gemini-2.5-Pro は、指示への準拠とビジュアル品質を確保するための自動判定として機能しました。プロセス全体の費用は約 100,000 ドルです。
データセットの内部: 単一の編集だけではありません
データセットの構造をドリルダウンすると、複雑な研究シナリオ向けに設計されたリソースが明らかになります。 「400K」という名前が付けられているこのコレクションは、実際には 8 つの主要カテゴリにわたる 35 の編集タイプの詳細な分類に整理された 386,000 の厳選されたサンプルで構成されています。
これらの範囲は、単純なピクセルおよびフォトメトリック調整から、複雑なオブジェクト レベルのセマンティック変更、シーン構成編集、スタイル変換にまで及びます。
その最大部分には、標準的な監視付き微調整用の 258,000 のシングルターン サンプルが含まれています。 2 番目のサブセットは 72,000 のマルチターン サンプルを提供し、モデルが複数のステップにわたる変更を追跡する必要がある場合の連続編集やコンテキスト認識型変更の研究を可能にします。
最後に、56,000 のサンプルの設定サブセットには、成功した編集と失敗した編集のペアが含まれています。これは、整合性の調査や、高品質の出力と欠陥のある出力の区別を学習できる報酬モデルのトレーニングにとって重要です。研究者は、クリエイティブ コモンズの非営利ライセンスに基づいて、Apple の研究ポータルで完全なデータセットにアクセスできます。
AI 編集の最前線と失敗を明らかにする
AI 研究コミュニティにとって、このリリースは単なる新しいデータ プールではありません。これは、テクノロジーがどこで優れていて、どこでまだ苦戦しているのかを示す明確な指標です。
データセットからのパフォーマンス メトリクスは、ビンテージ フィルターの適用やシーン全体のトーンを「ゴールデン アワー」に変更するなど、全体的でスタイル的な編集が非常に信頼できることを示しています。しかし、正確な空間制御と幾何学的理解を必要とする編集は依然として大きな課題です。
シーン内のオブジェクトの再配置などのタスクの成功率は 60% 未満で、画像内のテキスト生成は特に脆弱でした。
これは、競争の激しい AI 画像市場に貴重なコンテキストを提供します。 Google の基礎となる Nano-Banana モデルは、正式なリリース前から、公開リーダーボードで最高評価の画像エディタになりました。
その成功は、広範な業界競争の一部であり、ByteDance は直接の挑戦者として Seedream 4.0 モデルを発表し、内部の挫折の後、Midjourney からメタ ライセンス テクノロジーを発表しました。
これらのモデル内の機能は急速に拡大しています。 Google DeepMind のプロダクト リードである Nicole Brichtova 氏は、「これまで特殊なツールが必要だった機能を、日常のクリエイターの手に提供しています。これによって創造性が爆発的に爆発するのを見るのは刺激的です。」
早期採用者は、このモデルの一貫性を賞賛しています。 AI スタートアップ Cartwheel の共同創設者である Andrew Carr 氏は、このモデルがユニークな機能を備えていることに気づき、「新しい Gemini 2.5 Flash Image モデルは、その両方を提供できる最初のモデルでした。」と述べました。
Apple のリリースは、「モデルの蒸留」の代表的な例としても議論されています。これは、大規模で強力なモデル (ナノバナナ) を使用して大規模なトレーニング データセットを生成するプロセスです。
他の研究者は、この公開データを使用して、元の独自システムの機能を模倣する、より小さく、より効率的で、潜在的にオープンソースのモデルをトレーニングできます。これらの高品質の成果を公開することで、Apple は最先端の AI へのアクセスの民主化を効果的に支援し、よりオープンで協力的な研究環境を促進しています。
“`