Apple ka lëshuar Pico-Banana-400K një grup të dhënash publike në shkallë të gjerë të krijuar për të avancuar redaktimin e imazheve të drejtuar nga AI. I publikuar më 23 tetor, koleksioni përmban afro 400,000 modifikime imazhesh me cilësi të lartë të ndërtuara nga fotografi reale.

Projekti synon të zgjidhë një sfidë kryesore për studiuesit duke ofruar një burim të hapur dhe të larmishëm për trajnimin e modeleve të gjeneratës së ardhshme.

Në një lëvizje të dukshme, kërkuesit e Apple krijuan mjete nga konkurrenti i të dhënave Google. Ata përdorën redaktuesin e imazhit”Nano-Banana”për të gjeneruar modifikimet dhe modelin Gemini 2.5 Pro për të siguruar cilësi dhe saktësi. Të dhënat e plota tani janë të disponueshme në GitHub për kërkime jokomerciale.

A Cross-SolveckyA Cross-Company.

Në një shfaqje befasuese të bashkëpunimit ndër-industri, Apple iu drejtua teknologjisë së rivalit të saj kryesor për të ndërtuar veglën e saj më të fundit kërkimore.

Krijimi i Pico-Kanist bottlene-4 u bë nga të dhënat e Pico-0Banana-4. Zhvillimi i AI: mungesa e grupeve të të dhënave të mëdha, me cilësi të lartë dhe të hapura të aksesueshme bazuar në imazhe reale. Shumë burime ekzistuese janë ose tërësisht sintetike, të kufizuara në shtrirjen e kuruar nga njeriu, ose të ndërtuara me modele pronësore, duke penguar përparimin e gjerë të komunitetit.

Kërkuesit e Apple deklarojnë se qëllimi i tyre ishte të krijonin një”bazë të fortë për trajnimin dhe krahasimin e gjeneratës së ardhshme të modeleve të modifikimit të imazheve të drejtuara nga teksti”.

A tyre. Pico-Banana-400K nga grupet e mëparshme të të dhënave sintetike është qasja jonë sistematike ndaj cilësisë dhe diversitetit.”

Duke marrë fotografi origjinale nga koleksioni OpenImages, ekipi përdori modelin e fuqishëm Nano-Banana të Google, i njohur tashmë zyrtarisht si Gemini 2.5 Flash Image, për të gjeneruar një gamë të gjerë modifikimesh. gjyqtar i automatizuar për të siguruar pajtueshmërinë e udhëzimeve dhe cilësinë vizuale. I gjithë procesi kushtoi afërsisht 100,000 dollarë.

Brenda grupit të të dhënave: Më shumë se vetëm modifikime të vetme

Shpimi në strukturën e grupit të të dhënave zbulon një burim të krijuar për skenarë komplekse kërkimore. Ndërsa quhet”400K”, koleksioni në fakt përfshin 386,000 shembuj të kuruar të organizuar në një taksonomi të detajuar prej 35 lloje modifikimesh në tetë kategori kryesore.

Këto variojnë nga rregullimet e thjeshta piksel dhe fotometrike deri te ndryshimet komplekse semantike të nivelit të objektit, redaktimet e kompozimit të skenës dhe transformimet stilistike më të mëdha për shembujt porn-02, porn20I për teke.

rregullim standard i mbikëqyrur. Një nëngrup i dytë ofron 72,000 shembuj me shumë kthesa, duke mundësuar kërkimin në redaktim vijues dhe modifikime të vetëdijshme për kontekstin, ku një model duhet të gjurmojë ndryshimet në disa hapa.

Më në fund, një nëngrup preferencash prej 56,000 shembujsh përfshin çifte modifikimesh të suksesshme dhe të dështuara. Kjo është thelbësore për kërkimin e shtrirjes dhe për modelet e shpërblimit të trajnimit që mund të mësojnë të dallojnë rezultatet me cilësi të lartë nga ato me të meta. Studiuesit mund të kenë akses në të dhënat e plota në portalin kërkimor të Apple nën një licencë jo-tregtare të Creative Commons.

Ndriçimi i kufirit, dhe dështimet, lëshimi i komunitetit AIhit3, Për kërkimin e Ed33 të Creative Commons. është më shumë se thjesht një grup i ri të dhënash; është një tregues i qartë se ku shkëlqen teknologjia dhe ku ende ka vështirësi.

Metrikat e performancës nga grupi i të dhënave tregojnë se modifikimet globale dhe stilistike, si aplikimi i një filtri të vjetër ose ndryshimi i tonit të përgjithshëm të një skene në”orë të artë”, janë shumë të besueshme. Megjithatë, modifikimet që kërkojnë kontroll të saktë hapësinor dhe kuptim gjeometrik mbeten një sfidë e rëndësishme.

Detyrat si zhvendosja e një objekti brenda një skene kishin një përqindje suksesi nën 60%, dhe gjenerimi i tekstit brenda imazheve ishte veçanërisht i brishtë.

Kjo ofron një kontekst të vlefshëm për tregun jashtëzakonisht konkurrues të imazheve të AI. Modeli themelor i Google Nano-Banana u bë redaktori më i vlerësuar i imazheve në tabelat publike edhe para fillimit të tij zyrtar.

Suksesi i tij është pjesë e një gare më të gjerë të industrisë, me ByteDance që lançoi modelin e saj Seedream 4.0 si një sfidues të drejtpërdrejtë dhe teknologjinë e licencimit Meta nga Midjourney pas pengesave të brendshme të zgjeruara. Nicole Brichtova, drejtuese e produkteve në Google DeepMind, tha:”Ne po vendosim aftësitë që më parë kërkonin mjete të specializuara në duart e krijuesve të përditshëm dhe është frymëzuese të shihet shpërthimi i krijimtarisë që ka shkaktuar.”

Përshtatësit e hershëm kanë lavdëruar qëndrueshmërinë e modelit. Andrew Carr, bashkëthemelues i startup-it të inteligjencës artificiale Cartwheel, e gjeti atë të aftë në mënyrë unike, duke deklaruar,”Modeli i ri Gemini 2.5 Flash Image ishte i pari që mund t’i ofronte të dyja.”

Lëshimi i Apple po diskutohet gjithashtu si një shembull kryesor i”distilimit të modelit”. Ky është një proces ku përdoret një model i madh dhe i fuqishëm (Nano-Banana) për të gjeneruar një grup të dhënash masive trajnimi.

Kërkuesit e tjerë më pas mund t’i përdorin këto të dhëna publike për të trajnuar modele më të vogla, më efikase dhe potencialisht me burim të hapur që imitojnë aftësitë e sistemit origjinal të pronarit. Duke i bërë publike këto rezultate me cilësi të lartë, Apple po ndihmon në mënyrë efektive në demokratizimin e aksesit në AI më të fundit, duke nxitur një peizazh kërkimor më të hapur dhe bashkëpunues.

“`

Categories: IT Info