Un efort între companii de a rezolva o sticlă de cercetare surprinzătoare
. colaborare interprofesională, Apple a apelat la tehnologia principalului său rival pentru a-și construi cel mai recent instrument de cercetare.
Crearea Setul de date Pico-Banana-400K a fost condusă de o dezvoltare mare de înaltă calitate, de o lipsă de sticlă de dezvoltare deschisă, de înaltă calitate, accesibilă în mod persistent AI în absența AI. seturi de date bazate pe imagini reale. Multe resurse existente sunt fie în întregime sintetice, limitate în domeniul de aplicare a personalului, fie construite cu modele proprietare, împiedicând progresul comunității largi.
Cercetătorii Apple afirmă că scopul lor a fost de a crea o „fundație solidă pentru formarea și evaluarea următoarei generații de modele de editare a imaginilor ghidate de text”. seturile de date reprezintă abordarea noastră sistematică a calității și diversității.”
Aprovizionarea cu fotografii originale din colecția OpenImages, echipa a folosit modelul puternic Google Nano-Banana, acum cunoscut oficial sub numele de Gemini 2.5 Flash Image, pentru a genera o gamă largă de editări.
Un al doilea model Google, Gemini-2.5-Pro, a servit pentru a asigura conformitatea cu instrucțiuni automate și vizuale. Întregul proces a costat aproximativ 100.000 USD.
În interiorul setului de date: mai mult decât simple editări
Examinarea structurii setului de date relevă o resursă concepută pentru scenarii complexe de cercetare. Deși este numită „400K”, colecția cuprinde de fapt 386.000 de exemple organizate într-o taxonomie detaliată de 35 de tipuri de editare în opt categorii majore.
Aceste variază de la simple ajustări fotometrice și de pixeli până la modificări semantice complexe la nivel de obiect, editări ale compoziției scenei și transformări stilistice.
0-25 de exemple standard. reglaj fin supravegheat. Un al doilea subset oferă 72.000 de exemple cu mai multe rânduri, permițând cercetarea editării secvențiale și a modificărilor conștiente de context, în care un model trebuie să urmărească modificările în mai mulți pași.
În sfârșit, un subset de preferințe de 56.000 de exemple include perechi de editări reușite și eșuate. Acest lucru este crucial pentru cercetarea de aliniere și pentru formarea modelelor de recompensă care pot învăța să distingă rezultatele de înaltă calitate de cele defecte. Cercetătorii pot accesa setul de date complet pe portalul de cercetare Apple sub o licență non-comercială Creative Commons.
Illuminating the Frontier, and Failures, of AI Editing
Pentru noua versiune a comunității de date este mai mult decât cercetarea AI; este un indicator clar al punctului în care tehnologia excelează și unde încă se luptă.
Valorii de performanță din setul de date arată că editările globale și stilistice, cum ar fi aplicarea unui filtru vintage sau schimbarea tonului general al unei scene în „ora de aur”, sunt foarte fiabile. Cu toate acestea, editările care necesită control spațial precis și înțelegere geometrică rămân o provocare semnificativă.
Sarcini precum relocarea unui obiect într-o scenă au avut o rată de succes sub 60%, iar generarea de text în imagini a fost deosebit de fragilă.
Acest lucru oferă un context valoros pentru piața de imagini AI extrem de competitivă. Modelul de bază Nano-Banana de la Google a devenit cel mai bine cotat editor de imagini în clasamentele publice chiar înainte de lansarea sa oficială.
Succesul său face parte dintr-o cursă mai amplă a industriei, ByteDance lansând modelul Seedream 4.0 ca challenger direct și tehnologia de acordare a licențelor Meta de la Midjourney după eșecuri interne.
Capabilitățile acestor modele se extind rapid. Nicole Brichtova, responsabil de produs la Google DeepMind, a declarat: „Punem capabilități care înainte necesitau instrumente specializate în mâinile creatorilor obișnuiți și a fost inspirant să vedem explozia de creativitate care a declanșat-o.”
Primii adoptatori au lăudat consecvența modelului. Andrew Carr, co-fondatorul startup-ului AI Cartwheel, l-a considerat unic capabil, afirmând: „Noul model Gemini 2.5 Flash Image a fost primul care le-a putut oferi pe ambele.”
Lasarea Apple este, de asemenea, discutată ca un prim exemplu de „distilare model”. Acesta este un proces în care un model mare și puternic (Nano-Banana) este utilizat pentru a genera un set masiv de date de antrenament.
Alți cercetători pot folosi apoi aceste date publice pentru a antrena modele mai mici, mai eficiente și, potențial, cu sursă deschisă, care imită capacitățile sistemului proprietar original. Făcând publice aceste rezultate de înaltă calitate, Apple ajută în mod eficient la democratizarea accesului la IA de ultimă generație, promovând un peisaj de cercetare mai deschis și colaborativ.
„`