Apple hat Pico-Banana-400K veröffentlicht, einen großen öffentlichen Datensatz, der die KI-gesteuerte Bildbearbeitung vorantreiben soll. Die am 23. Oktober veröffentlichte Sammlung enthält fast 400.000 hochwertige Bildbearbeitungen, die aus echten Fotos erstellt wurden.
Das Projekt zielt darauf ab, eine zentrale Herausforderung für Forscher zu lösen, indem es eine offene und vielfältige Ressource für das Training von Modellen der nächsten Generation bereitstellt.
In einem bemerkenswerten Schritt verwendeten die Apple-Forscher Tools des Konkurrenten Google, um den Datensatz zu erstellen. Sie nutzten den Bildeditor „Nano-Banana“, um die Bearbeitungen zu erstellen, und das Gemini 2.5 Pro-Modell, um Qualität und Genauigkeit sicherzustellen. Der vollständige Datensatz ist jetzt auf GitHub für nichtkommerzielle Forschung verfügbar.
 
Eine unternehmensübergreifende Anstrengung zur Lösung eines Forschungsengpasses
In einer überraschenden Darstellung von Aufgrund der branchenübergreifenden Zusammenarbeit nutzte Apple die Technologie seines Hauptkonkurrenten, um sein neuestes Forschungstool zu entwickeln.
Die Erstellung des Pico-Banana-400K-Datensatzes war auf einen anhaltenden Engpass in der KI-Entwicklung zurückzuführen: das Fehlen großer, qualitativ hochwertiger und offen zugänglicher Datensätze, die auf echten Bildern basieren. Viele vorhandene Ressourcen sind entweder vollständig synthetisch, in ihrem vom Menschen kuratierten Umfang begrenzt oder basieren auf proprietären Modellen, was den breiten Community-Fortschritt behindert.
Apples Forscher geben an, ihr Ziel sei es, eine „robuste Grundlage für das Training und Benchmarking der nächsten Generation textgesteuerter Bildbearbeitungsmodelle“ zu schaffen.
In ihrer Arbeit heißt es: „Was Pico-Banana-400K von früheren synthetischen Datensätzen unterscheidet, ist unser systematischer Ansatz für Qualität und Vielfalt.“
Das Team bezog Originalfotos aus der OpenImages-Sammlung und nutzte das leistungsstarke Nano-Banana-Modell von Google, das jetzt offiziell als Gemini 2.5 Flash Image bekannt ist, um eine Vielzahl von Bearbeitungen zu generieren.
Ein zweites Google-Modell, Gemini-2.5-Pro, diente als automatisierter Richter, um die Einhaltung der Anweisungen und die visuelle Qualität sicherzustellen. Der gesamte Prozess kostete etwa 100.000 US-Dollar.
Im Datensatz: Mehr als nur einzelne Bearbeitungen
Ein genauerer Blick auf die Struktur des Datensatzes zeigt eine Ressource, die für komplexe Forschungsszenarien konzipiert ist. Obwohl die Sammlung den Namen „400K“ trägt, umfasst sie tatsächlich 386.000 kuratierte Beispiele, die in einer detaillierten Taxonomie von 35 Bearbeitungstypen in acht Hauptkategorien organisiert sind.
Diese reichen von einfachen Pixel-und fotometrischen Anpassungen bis hin zu komplexen semantischen Änderungen auf Objektebene, Szenenkompositionsbearbeitungen und stilistischen Transformationen.
Der größte Teil enthält 258.000 Single-Turn-Beispiele für standardmäßig überwachte Feinabstimmung. Eine zweite Teilmenge enthält 72.000 Multi-Turn-Beispiele und ermöglicht die Erforschung sequentieller Bearbeitung und kontextbezogener Änderungen, bei denen ein Modell Änderungen über mehrere Schritte hinweg verfolgen muss.
Schließlich enthält eine 56.000 Beispiele umfassende Präferenz-Teilmenge Paare erfolgreicher und fehlgeschlagener Bearbeitungen. Dies ist von entscheidender Bedeutung für die Alignment-Forschung und für das Training von Belohnungsmodellen, die lernen können, hochwertige Ergebnisse von fehlerhaften zu unterscheiden. Forscher können auf den vollständigen Datensatz auf Apples Forschungsportal unter einer nichtkommerziellen Creative Commons-Lizenz zugreifen.
Die Grenzen und Misserfolge der KI-Bearbeitung beleuchten
Für die KI-Forschungsgemeinschaft ist die Veröffentlichung mehr als nur ein neuer Datenpool; Dies ist ein klarer Indikator dafür, wo sich die Technologie auszeichnet und wo sie noch Schwierigkeiten hat.
Leistungsmetriken aus dem Datensatz zeigen, dass globale und stilistische Bearbeitungen, wie die Anwendung eines Vintage-Filters oder die Änderung des Gesamttons einer Szene auf „Goldene Stunde“, äußerst zuverlässig sind. Allerdings stellen Bearbeitungen, die eine präzise räumliche Kontrolle und ein geometrisches Verständnis erfordern, nach wie vor eine große Herausforderung dar.
Aufgaben wie das Verschieben eines Objekts innerhalb einer Szene hatten eine Erfolgsquote von unter 60 % und die Textgenerierung in Bildern war besonders fragil.
Dies liefert wertvolle Kontexte für den hart umkämpften Markt für KI-Bilder. Das zugrunde liegende Nano-Banana-Modell von Google wurde bereits vor seiner offiziellen Einführung zum bestbewerteten Bildeditor auf öffentlichen Bestenlisten.
Sein Erfolg ist Teil eines breiteren Branchenwettlaufs, wobei ByteDance nach internen Rückschlägen sein Seedream 4.0-Modell als direkter Herausforderer und die Meta-Lizenzierungstechnologie von Midjourney auf den Markt bringt.
Die Fähigkeiten dieser Modelle werden rasch erweitert. Nicole Brichtova, Produktleiterin bei Google DeepMind, sagte: „Wir geben Funktionen, für die früher spezielle Tools erforderlich waren, in die Hände alltäglicher Entwickler, und es ist inspirierend zu sehen, welche Explosion an Kreativität dadurch ausgelöst wurde.“
Erste Anwender haben die Konsistenz des Modells gelobt. Andrew Carr, Mitbegründer des KI-Startups Cartwheel, fand es einzigartig leistungsfähig und erklärte: „Das neue Gemini 2.5 Flash Image-Modell war das erste, das beides bieten konnte.“
Apples Veröffentlichung wird auch als Paradebeispiel für „Modelldestillation“ diskutiert. Dies ist ein Prozess, bei dem ein großes, leistungsstarkes Modell (Nano-Banana) verwendet wird, um einen riesigen Trainingsdatensatz zu generieren.
Andere Forscher können diese öffentlichen Daten dann verwenden, um kleinere, effizientere und möglicherweise Open-Source-Modelle zu trainieren, die die Fähigkeiten des ursprünglichen proprietären Systems nachahmen. Durch die Veröffentlichung dieser hochwertigen Ergebnisse trägt Apple effektiv dazu bei, den Zugang zu modernster KI zu demokratisieren und eine offenere und kollaborativere Forschungslandschaft zu fördern.
“`