Apple 發布了 Pico-Banana-400K 一個大型公共數據集,旨在推進人工智能驅動的圖像編輯。該集合於 10 月 23 日發布,包含近 400,000 個根據真實照片構建的高質量圖像編輯。
該項目旨在通過提供用於訓練下一代模型的開放且多樣化的資源來解決研究人員面臨的關鍵挑戰。
值得注意的是,Apple 的研究人員使用競爭對手 Google 的工具來創建數據集。他們利用“Nano-Banana”圖像編輯器進行編輯,並利用 Gemini 2.5 Pro 模型來確保質量和準確性。完整數據集現已在 GitHub 上提供,用於非商業研究。
跨公司努力解決研究瓶頸
跨行業的令人驚訝的展示在合作中,蘋果公司求助於其主要競爭對手的技術來構建其最新的研究工具。
Pico-Banana-400K 數據集的創建是由人工智能開發中的持續瓶頸驅動的:缺乏基於真實圖像的大型、高質量且可公開訪問的數據集。許多現有資源要么完全是合成的,僅限於人工管理的範圍,要么是使用專有模型構建的,阻礙了社區的廣泛進步。
Apple 的研究人員表示,他們的目標是“為下一代文本引導圖像編輯模型的訓練和基準測試奠定堅實的基礎。”
根據他們的論文,“Pico-Banana-400K 與以前的合成數據集的區別在於我們對質量和多樣性的系統方法。”
從 OpenImages 收藏中獲取原始照片,該團隊使用 Google 強大的 Nano-Banana 模型(現在正式稱為 Gemini 2.5 Flash Image)來生成大量編輯。
第二個 Google 模型 Gemini-2.5-Pro 充當自動判斷器,以確保指令合規性和視覺質量。整個過程花費約 100,000 美元。
數據集內部:不僅僅是單一編輯
深入研究數據集的結構揭示了專為複雜研究場景設計的資源。雖然名為“400K”,但該集合實際上包含 386,000 個精選示例,這些示例被組織成跨八個主要類別的 35 種編輯類型的詳細分類。
這些範圍從簡單的像素和光度調整到復雜的對象級語義更改、場景構圖編輯和風格轉換。
其最大部分包含 258,000 個用於標準監督微調的單輪示例。第二個子集提供了 72,000 個多輪示例,支持對順序編輯和上下文感知修改的研究,其中模型必須跨多個步驟跟踪更改。
最後,56,000 個示例首選項子集包括成對的成功編輯和失敗編輯。這對於一致性研究和訓練獎勵模型至關重要,這些模型可以學習區分高質量的輸出和有缺陷的輸出。研究人員可以在知識共享非商業許可下在 Apple 研究門戶上訪問完整的數據集。
闡明 AI 編輯的前沿和失敗
對於 AI 研究社區來說,此次發布不僅僅是一個新的數據池;它清楚地表明了該技術的優勢和不足。
數據集中的性能指標顯示,全局和風格編輯(例如應用複古濾鏡或將場景的整體基調更改為“黃金時段”)非常可靠。然而,需要精確空間控制和幾何理解的編輯仍然是一個重大挑戰。
重新定位場景中的對像等任務的成功率低於 60%,圖像中的文本生成尤其脆弱。
這為競爭激烈的人工智能圖像市場提供了寶貴的背景。 Google 的底層 Nano-Banana 模型在正式發布之前就已成為公共排行榜上評價最高的圖像編輯器。
它的成功是更廣泛的行業競賽的一部分,字節跳動推出了 Seedream 4.0 模型作為直接挑戰者,並在內部挫折後推出了 Midjourney 的 Meta 許可技術。
這些模型中的功能正在迅速擴展。 Google DeepMind 的產品負責人 Nicole Brichtova 表示:“我們正在將過去需要專門工具才能實現的功能交給日常創作者,看到由此引發的創造力爆炸令人鼓舞。”
早期採用者對該模型的一致性表示讚賞。人工智能初創公司 Cartwheel 的聯合創始人 Andrew Carr 發現它具有獨特的能力,並表示:“新的 Gemini 2.5 Flash Image 模型是第一個能夠同時提供這兩種功能的模型。”
Apple 的發布也被視為“模型蒸餾”的一個典型例子。在這個過程中,使用大型、強大的模型(Nano-Banana)生成大量訓練數據集。
其他研究人員可以使用這些公共數據來訓練更小、更高效且可能開源的模型,以模仿原始專有系統的功能。通過公開這些高質量的成果,Apple 正在有效地幫助實現最先進人工智能的民主化,培育更加開放和協作的研究環境。
“`