Ang

Apple ay naglabas ng pico-banan-400k Isang malaking-scale na pampublikong dataset na idinisenyo upang isulong ang pag-edit ng imahe ng ai-driven. Nai-publish noong Oktubre 23, ang koleksyon ay naglalaman ng halos 400,000 na de-kalidad na pag-edit ng imahe na itinayo mula sa mga tunay na litrato. Ginamit nila ang editor ng imahe ng”Nano-Banana”upang makabuo ng mga pag-edit at ang modelo ng Gemini 2.5 Pro upang matiyak ang kalidad at kawastuhan. Magagamit na ngayon ang buong dataset sa github para sa hindi pang-komersyal na pananaliksik. Bottleneck hinimok ng isang patuloy na bottleneck sa pag-unlad ng AI: ang kawalan ng malaki, mataas na kalidad, at bukas na maa-access na mga datasets batay sa mga tunay na imahe. Maraming mga umiiral na mapagkukunan ay alinman sa ganap na sintetiko, limitado sa saklaw ng tao, o itinayo na may mga modelo ng pagmamay-ari, na pumipigil sa malawak na pag-unlad ng komunidad. Ang aming sistematikong diskarte sa kalidad at pagkakaiba-iba.”Ang buong proseso ay nagkakahalaga ng humigit-kumulang na $ 100,000. Habang pinangalanan na”400k,”ang koleksyon ay talagang binubuo ng 386,000 mga curated na halimbawa na naayos sa isang detalyadong taxonomy ng 35 na mga uri ng pag-edit sa walong pangunahing kategorya. Ang pangalawang subset ay nagbibigay ng 72,000 mga halimbawa ng multi-turn, na nagpapagana ng pananaliksik sa sunud-sunod na pag-edit at mga pagbabago sa kamalayan ng konteksto kung saan dapat subaybayan ng isang modelo ang mga pagbabago sa maraming mga hakbang. Mahalaga ito para sa pananaliksik sa pag-align at para sa mga modelo ng gantimpala ng pagsasanay na maaaring malaman upang makilala ang mga de-kalidad na output mula sa mga kamalian. Maaaring ma-access ng mga mananaliksik ang kumpletong dataset sa portal ng pananaliksik ng Apple Sa ilalim ng isang malikhaing commons na hindi komersyal na lisensya. Komunidad, ang paglabas ay higit pa sa isang bagong pool ng data; Ito ay isang malinaw na tagapagpahiwatig ng kung saan ang teknolohiya ay higit sa lahat at kung saan ito ay nagpupumilit pa rin. Gayunpaman, ang mga pag-edit na nangangailangan ng tumpak na kontrol ng spatial at pag-unawa sa geometriko ay nananatiling isang makabuluhang hamon. Ang pinagbabatayan na modelo ng Nano-Banana ng Google ay naging top-rated na editor ng imahe sa mga pampublikong leaderboard kahit na bago ang opisyal na paglulunsad nito. Si Nicole Brichtova, isang nangunguna sa produkto sa Google DeepMind, ay nagsabi,”Naglalagay kami ng mga kakayahan na ginamit upang mangailangan ng dalubhasang mga tool sa mga kamay ng pang-araw-araw na tagalikha, at nakasisigla na makita ang pagsabog ng pagkamalikhain na ito ay nag-spark.”Si Andrew Carr, co-founder ng AI startup Cartwheel, ay natagpuan itong natatanging may kakayahang, na nagsasabi,”Ang bagong modelo ng imahe ng Gemini 2.5 flash ay ang una na maaaring magbigay ng pareho.”Ito ay isang proseso kung saan ang isang malaki, malakas na modelo (nano-banana) ay ginagamit upang makabuo ng isang napakalaking dataset ng pagsasanay. Sa pamamagitan ng paggawa ng mga de-kalidad na output na pampubliko, ang Apple ay epektibong tumutulong sa pag-democratize ng pag-access sa state-of-the-art AI, na nagtataguyod ng isang mas bukas at pakikipagtulungan na tanawin ng pananaliksik.

“`

Categories: IT Info