Firma Apple udostępniła Pico-Banana-400K wielkoskalowy publiczny zbiór danych zaprojektowany w celu usprawnienia edycji obrazów opartej na sztucznej inteligencji. Opublikowana 23 października kolekcja zawiera prawie 400 000 wysokiej jakości edycji obrazów utworzonych na podstawie prawdziwych zdjęć.
Projekt ma na celu rozwiązanie kluczowego wyzwania stojącego przed badaczami poprzez zapewnienie otwartych i różnorodnych zasobów do szkolenia modeli nowej generacji.
To godne uwagi posunięcie: badacze Apple wykorzystali narzędzia konkurencyjnej firmy Google do utworzenia zbioru danych. Wykorzystali edytor obrazów „Nano-Banana” do wygenerowania zmian oraz model Gemini 2.5 Pro, aby zapewnić jakość i dokładność. Pełny zbiór danych jest teraz dostępny w GitHub do celów badań niekomercyjnych.
Wspólne wysiłki mające na celu rozwiązanie wąskiego gardła w badaniach
W procesie zaskakującym przejawem współpracy międzybranżowej, firma Apple zwróciła się do technologii swojego głównego rywala, aby zbudować swoje najnowsze narzędzie badawcze.
Utworzenie zestawu danych Pico-Banana-400K było spowodowane utrzymującym się wąskim gardłem w rozwoju sztucznej inteligencji: brakiem dużych, łatwo dostępnych zbiorów danych o wysokiej jakości w oparciu o prawdziwe obrazy. Wiele istniejących zasobów jest albo całkowicie syntetycznych, o ograniczonym zakresie wybieranym przez człowieka, albo zbudowanych na podstawie zastrzeżonych modeli, co utrudnia postęp szerokiej społeczności.
Badacze firmy Apple twierdzą, że ich celem było stworzenie „solidnej podstawy do szkolenia i porównywania nowej generacji modeli edycji obrazów sterowanych tekstem”.
Według ich artykułu „To, co odróżnia Pico-Banana-400K od poprzednich syntetycznych zbiorów danych, to nasze systematyczne podejście do jakości i różnorodności”.
Pozyskując oryginalne zdjęcia z kolekcji OpenImages, zespół wykorzystał potężny model Google Nano-Banana, obecnie oficjalnie znany jako Gemini 2.5 Flash Image, do wygenerowania szerokiej gamy edycji.
Drugi model Google, Gemini-2.5-Pro, służył jako zautomatyzowany sędzia sprawdzający zgodność z instrukcjami i jakość wizualną. Cały proces kosztuje około 100 000 dolarów.
Wewnątrz zbioru danych: więcej niż pojedyncze zmiany
Dogłębne wgłębienie się w strukturę zbioru danych ujawnia zasób przeznaczony do złożonych scenariuszy badawczych. Kolekcja nosi nazwę „400 KB” i obejmuje w rzeczywistości 386 000 wybranych przykładów uporządkowanych w szczegółową taksonomię 35 typów edycji w ośmiu głównych kategoriach.
Obejmują one od prostych dostosowań pikseli i fotometrycznych po złożone zmiany semantyczne na poziomie obiektu, edycje kompozycji scen i transformacje stylistyczne.
Największa część zawiera 258 000 przykładów jednoobrotowych do standardowego nadzorowanego dostrajania. Drugi podzbiór zawiera 72 000 wieloetapowych przykładów, umożliwiając badanie edycji sekwencyjnej i modyfikacji uwzględniających kontekst, w których model musi śledzić zmiany w kilku etapach.
I wreszcie podzbiór preferencji obejmujący 56 000 przykładów zawiera pary udanych i nieudanych edycji. Ma to kluczowe znaczenie dla badań nad dopasowaniem i szkolenia modeli nagród, które mogą nauczyć się odróżniać wyniki wysokiej jakości od wadliwych. Badacze mogą uzyskać dostęp do pełnego zbioru danych w portalu badawczym Apple na podstawie niekomercyjnej licencji Creative Commons.
Iluminacja granic i niepowodzeń edycji AI
Dla społeczności badawczej zajmującej się sztuczną inteligencją publikacja to coś więcej niż tylko nowa pula danych; to wyraźny wskaźnik tego, gdzie technologia jest doskonała, a gdzie nadal ma problemy.
Wskaźniki wydajności ze zbioru danych pokazują, że zmiany globalne i stylistyczne, takie jak zastosowanie filtra vintage lub zmiana ogólnego tonu sceny na „złotą godzinę”, są wysoce niezawodne. Jednak edycje wymagające precyzyjnej kontroli przestrzennej i zrozumienia geometrii pozostają poważnym wyzwaniem.
Zadania takie jak przemieszczanie obiektu w scenie miały wskaźnik powodzenia poniżej 60%, a generowanie tekstu w obrazach było szczególnie kruche.
Zapewnia to cenny kontekst dla niezwykle konkurencyjnego rynku obrazów AI. Podstawowy model Google Nano-Banana stał się najwyżej ocenianym edytorem obrazów w publicznych rankingach jeszcze przed oficjalną premierą.
Jego sukces jest częścią szerszego wyścigu branżowego, w ramach którego ByteDance wypuszcza na rynek swój model Seedream 4.0 jako bezpośredni konkurent, a technologię licencjonowania Meta od Midjourney po wewnętrznych niepowodzeniach.
Możliwości tych modeli szybko się rozwijają. Nicole Brichtova, liderka produktu w Google DeepMind, powiedziała: „Oddajemy w ręce codziennych twórców funkcje, które wcześniej wymagały specjalistycznych narzędzi, i obserwowanie eksplozji kreatywności, jaką to wywołało, było inspirujące”.
Pierwsi użytkownicy chwalili spójność modelu. Andrew Carr, współzałożyciel Cartwheel, start-upu AI, stwierdził, że ma on wyjątkowe możliwości i stwierdził: „Nowy model Gemini 2.5 Flash Image był pierwszym, który mógł zapewnić jedno i drugie”.
Wydanie Apple jest również omawiane jako doskonały przykład „destylacji modelu”. Jest to proces, w którym duży, wydajny model (Nano-Banan) jest używany do generowania ogromnego zestawu danych szkoleniowych.
Inni badacze mogą następnie wykorzystać te publiczne dane do szkolenia mniejszych, bardziej wydajnych i potencjalnie otwartych modeli, które naśladują możliwości oryginalnego, zastrzeżonego systemu. Udostępniając publicznie te wysokiej jakości wyniki, Apple skutecznie pomaga demokratyzować dostęp do najnowocześniejszej sztucznej inteligencji, wspierając bardziej otwarty i oparty na współpracy krajobraz badawczy.
„`