Apple on julkaissut Pico-Banana-400K laajan julkisen tietojoukon, joka on suunniteltu edistämään tekoälypohjaista kuvankäsittelyä. 23. lokakuuta julkaistu kokoelma sisältää lähes 400 000 korkealaatuista kuvanmuokkausta, jotka on rakennettu oikeista valokuvista.

Projektin tavoitteena on ratkaista tutkijoiden keskeinen haaste tarjoamalla avoin ja monipuolinen resurssi seuraavan sukupolven mallien kouluttamiseen.

Omenalaiset tutkijat käyttivät tietojoukon luomiseen kilpailija Googlen työkaluja. He käyttivät”Nano-Banana”-kuvaeditoria muokkausten luomiseen ja Gemini 2.5 Pro-mallia laadun ja tarkkuuden varmistamiseksi. Täysi tietojoukko on nyt saatavilla GitHubissa ei-kaupallista tutkimusta varten.

A Cross-Company for Bottle/Solhve Ef Research

Yllättävässä eri alojen välisessä yhteistyössä Apple kääntyi pääkilpailijansa teknologian puoleen rakentaakseen uusimman tutkimustyökalunsa.

Pico-Banana-400K-tietojoukon luominen, jatkuvan kehityksen korkean pullon puuttuminen johti: ja avoimesti saatavilla olevat todellisiin kuviin perustuvat tietojoukot. Monet olemassa olevat resurssit ovat joko täysin synteettisiä, ihmisten kuratoimia rajoitettuja tai ne on rakennettu patentoiduilla malleilla, mikä estää laajan yhteisön edistymisen.

Applen tutkijoiden mukaan heidän tavoitteenaan oli luoda”vankka perusta seuraavan sukupolven tekstiohjattujen kuvankäsittelymallien koulutukselle ja vertailuun.”

Heidän paperinsa mukaan”Mitä erottaa aiemmasta aineistosta Pico-0Kananaes-40tic data”systemaattinen lähestymistapamme laatuun ja monimuotoisuuteen.”

Hankiessaan alkuperäisiä valokuvia OpenImages-kokoelmasta, tiimi käytti Googlen tehokasta Nano-Banana-mallia, joka tunnetaan nyt virallisesti nimellä Gemini 2.5 Flash Image, luodakseen laajan valikoiman muokkauksia.

Toinen Googlen malli, Gemini-2.5-Pro, toimi automaattisena laadunvarmistuksena ja visuaalisena tuomarina. Koko prosessi maksoi noin 100 000 dollaria.

Tietojoukon sisällä: enemmän kuin yksittäisiä muokkauksia

Tietojoukon rakenteen syventäminen paljastaa monimutkaisia ​​tutkimusskenaarioita varten suunnitellun resurssin. Vaikka kokoelma on nimeltään”400K”, se sisältää itse asiassa 386 000 kuratoitua esimerkkiä, jotka on järjestetty 35 muokkaustyypin yksityiskohtaiseksi taksonomiaksi kahdeksassa pääkategoriassa.

Nämä vaihtelevat yksinkertaisista pikseli-ja fotometrisistä säädöistä monimutkaisiin objektitason semanttisiin muutoksiin, kohtauksen sommittelumuokkauksiin ja tyylimuunnoksiin.

Se sisältää 02 esimerkkiä yksittäisestä 8 suurimmasta portista. valvottua hienosäätöä. Toinen osajoukko tarjoaa 72 000 monikäännöstä esimerkkiä, mikä mahdollistaa peräkkäisen muokkauksen ja kontekstitietoisten muokkausten tutkimuksen, jossa mallin on seurattava muutoksia useissa vaiheissa.

Lopuksi 56 000 esimerkin mieltymysten osajoukko sisältää pareja onnistuneita ja epäonnistuneita muokkauksia. Tämä on ratkaisevan tärkeää kohdistustutkimukselle ja palkitsemismalleille, jotka voivat oppia erottamaan laadukkaat tulokset puutteellisista. Tutkijat voivat käyttää täydellistä tietojoukkoa Applen tutkimusportaalissa Creative Commonsin ei-kaupallisella lisenssillä.

Tekoälyn muokkauksen rajojen ja epäonnistumisten valaiseminen, uusi tutkimusyhteisö

on enemmän kuin pelkkä tekoälyn yhteisö. tiedot; se on selkeä osoitus siitä, missä tekniikka on erinomaista ja missä se vielä kamppailee.

Tietojoukon suorituskykymittarit osoittavat, että globaalit ja tyylilliset muokkaukset, kuten vintage-suodattimen käyttö tai kohtauksen yleissävyn muuttaminen”kultaiseksi tunniksi”, ovat erittäin luotettavia. Tarkkaa tilahallintaa ja geometrista ymmärrystä vaativat muokkaukset ovat kuitenkin edelleen merkittävä haaste.

Tehtävät, kuten kohteen siirtäminen kohtauksen sisällä, onnistuivat alle 60 %, ja tekstin luominen kuvien sisällä oli erityisen hauras.

Tämä tarjoaa arvokasta kontekstia kiihkeästi kilpaileville tekoälykuvamarkkinoille. Googlen taustalla olevasta Nano-Banana-mallista tuli julkisten tulostaulukoiden parhaiksi arvioitu kuvankäsittelyohjelma jo ennen sen virallista julkaisua.

Sen menestys on osa laajempaa alan kilpailua: ByteDance julkaisi Seedream 4.0-mallinsa suorana haastajana, ja Midjourneyn Meta-lisenssitekniikka laajenee nopeasti näiden mallien sisällä.

Nicole Brichtova, Google DeepMindin tuotepäällikkö, sanoi:”Annamme ominaisuudet, jotka ennen vaativat erikoistyökaluja arkipäiväisten tekijöiden käsiin, ja on ollut inspiroivaa nähdä tämän aiheuttaman luovuuden räjähdysmäinen kasvu.”

Varhaiset käyttäjät ovat ylistäneet mallin johdonmukaisuutta. Andrew Carr, yksi tekoälystartupin Cartwheelin perustajista, piti sitä ainutlaatuisen kykenevänä ja sanoi:”Uusi Gemini 2.5 Flash Image-malli oli ensimmäinen, joka pystyi tarjoamaan molemmat.”

Applen julkaisusta keskustellaan myös mallin tislaamisen malliesimerkkinä. Tämä on prosessi, jossa suurta ja tehokasta mallia (Nano-Banana) käytetään massiivisen harjoitustietojoukon luomiseen.

Toiset tutkijat voivat sitten käyttää tätä julkista dataa kouluttaakseen pienempiä, tehokkaampia ja mahdollisesti avoimen lähdekoodin malleja, jotka jäljittelevät alkuperäisen järjestelmän ominaisuuksia. Julkaisemalla nämä korkealaatuiset tulokset Apple auttaa tehokkaasti demokratisoimaan pääsyn uusimpaan tekoälyyn ja edistämään avoimempaa ja yhteistyöhön perustuvaa tutkimusmaisemaa.

“`

Categories: IT Info