Apple lansează setul de date Pico-Banana-400K bazat pe modelul de imagine AI „Nano Banana" de la Google

Apple a lansat Pico-Banana-400K un set de date publice la scară largă conceput pentru a avansa editarea imaginilor bazată pe inteligență artificială. Publicată pe 23 octombrie, colecția conține aproape 400.000 de editări de imagini de înaltă calitate construite din fotografii reale.

Proiectul își propune să rezolve o provocare cheie pentru cercetători, oferind o resursă deschisă și diversă pentru formarea modelelor de generație următoare.

Într-o mișcare notabilă, cercetătorii Apple au folosit instrumente de la concurenta Google pentru a crea setul de date. Ei au folosit editorul de imagini „Nano-Banana” pentru a genera editările și modelul Gemini 2.5 Pro pentru a asigura calitate și acuratețe. Setul de date complet este acum disponibil pe GitHub pentru cercetare non-comercială.

Un efort între companii de a rezolva o sticlă de cercetare surprinzătoare
. colaborare interprofesională, Apple a apelat la tehnologia principalului său rival pentru a-și construi cel mai recent instrument de cercetare.

Crearea Setul de date Pico-Banana-400K a fost condusă de o dezvoltare mare de înaltă calitate, de o lipsă de sticlă de dezvoltare deschisă, de înaltă calitate, accesibilă în mod persistent AI în absența AI. seturi de date bazate pe imagini reale. Multe resurse existente sunt fie în întregime sintetice, limitate în domeniul de aplicare a personalului, fie construite cu modele proprietare, împiedicând progresul comunității largi.

Cercetătorii Apple afirmă că scopul lor a fost de a crea o „fundație solidă pentru formarea și evaluarea următoarei generații de modele de editare a imaginilor ghidate de text”. seturile de date reprezintă abordarea noastră sistematică a calității și diversității.”

Aprovizionarea cu fotografii originale din colecția OpenImages, echipa a folosit modelul puternic Google Nano-Banana, acum cunoscut oficial sub numele de Gemini 2.5 Flash Image, pentru a genera o gamă largă de editări.

Un al doilea model Google, Gemini-2.5-Pro, a servit pentru a asigura conformitatea cu instrucțiuni automate și vizuale. Întregul proces a costat aproximativ 100.000 USD.

În interiorul setului de date: mai mult decât simple editări

Examinarea structurii setului de date relevă o resursă concepută pentru scenarii complexe de cercetare. Deși este numită „400K”, colecția cuprinde de fapt 386.000 de exemple organizate într-o taxonomie detaliată de 35 de tipuri de editare în opt categorii majore.

Aceste variază de la simple ajustări fotometrice și de pixeli până la modificări semantice complexe la nivel de obiect, editări ale compoziției scenei și transformări stilistice.

0-25 de exemple standard. reglaj fin supravegheat. Un al doilea subset oferă 72.000 de exemple cu mai multe rânduri, permițând cercetarea editării secvențiale și a modificărilor conștiente de context, în care un model trebuie să urmărească modificările în mai mulți pași.

În sfârșit, un subset de preferințe de 56.000 de exemple include perechi de editări reușite și eșuate. Acest lucru este crucial pentru cercetarea de aliniere și pentru formarea modelelor de recompensă care pot învăța să distingă rezultatele de înaltă calitate de cele defecte. Cercetătorii pot accesa setul de date complet pe portalul de cercetare Apple sub o licență non-comercială Creative Commons.

Illuminating the Frontier, and Failures, of AI Editing

Pentru noua versiune a comunității de date este mai mult decât cercetarea AI; este un indicator clar al punctului în care tehnologia excelează și unde încă se luptă.

Valorii de performanță din setul de date arată că editările globale și stilistice, cum ar fi aplicarea unui filtru vintage sau schimbarea tonului general al unei scene în „ora de aur”, sunt foarte fiabile. Cu toate acestea, editările care necesită control spațial precis și înțelegere geometrică rămân o provocare semnificativă.

Sarcini precum relocarea unui obiect într-o scenă au avut o rată de succes sub 60%, iar generarea de text în imagini a fost deosebit de fragilă.

Acest lucru oferă un context valoros pentru piața de imagini AI extrem de competitivă. Modelul de bază Nano-Banana de la Google a devenit cel mai bine cotat editor de imagini în clasamentele publice chiar înainte de lansarea sa oficială.

Succesul său face parte dintr-o cursă mai amplă a industriei, ByteDance lansând modelul Seedream 4.0 ca challenger direct și tehnologia de acordare a licențelor Meta de la Midjourney după eșecuri interne.

Capabilitățile acestor modele se extind rapid. Nicole Brichtova, responsabil de produs la Google DeepMind, a declarat: „Punem capabilități care înainte necesitau instrumente specializate în mâinile creatorilor obișnuiți și a fost inspirant să vedem explozia de creativitate care a declanșat-o.”

Primii adoptatori au lăudat consecvența modelului. Andrew Carr, co-fondatorul startup-ului AI Cartwheel, l-a considerat unic capabil, afirmând: „Noul model Gemini 2.5 Flash Image a fost primul care le-a putut oferi pe ambele.”

Lasarea Apple este, de asemenea, discutată ca un prim exemplu de „distilare model”. Acesta este un proces în care un model mare și puternic (Nano-Banana) este utilizat pentru a genera un set masiv de date de antrenament.

Alți cercetători pot folosi apoi aceste date publice pentru a antrena modele mai mici, mai eficiente și, potențial, cu sursă deschisă, care imită capacitățile sistemului proprietar original. Făcând publice aceste rezultate de înaltă calitate, Apple ajută în mod eficient la democratizarea accesului la IA de ultimă generație, promovând un peisaj de cercetare mai deschis și colaborativ.

„`

Apple lansează setul de date Pico-Banana-400K bazat pe modelul de imagine AI „Nano Banana” de la Google

Published by All Things Windows on November 3, 2025

În interiorul setului de date: mai mult decât simple editări

Illuminating the Frontier, and Failures, of AI Editing

IT Info

SUA blochează cele mai bune cipuri AI ale Nvidia din China, alimentând pivotul strategic către India

IT Info

Cum să descărcați declarația Venmo (ghid pas cu pas)

IT Info

Cele mai bune site-uri de anime pentru a viziona și a vorbi despre favoritele tale

Apple lansează setul de date Pico-Banana-400K bazat pe modelul de imagine AI „Nano Banana” de la Google

Published by All Things Windows on November 3, 2025

În interiorul setului de date: mai mult decât simple editări

Illuminating the Frontier, and Failures, of AI Editing

Related Posts

IT Info

SUA blochează cele mai bune cipuri AI ale Nvidia din China, alimentând pivotul strategic către India

IT Info

Cum să descărcați declarația Venmo (ghid pas cu pas)

IT Info

Cele mai bune site-uri de anime pentru a viziona și a vorbi despre favoritele tale