Apple telah merilis Pico-Banana-400K kumpulan data publik berskala besar yang dirancang untuk memajukan pengeditan gambar berbasis AI. Diterbitkan pada tanggal 23 Oktober, koleksi ini berisi hampir 400.000 hasil edit gambar berkualitas tinggi yang dibuat dari foto asli.

Proyek ini bertujuan untuk memecahkan tantangan utama bagi para peneliti dengan menyediakan sumber daya yang terbuka dan beragam untuk melatih model generasi berikutnya.

Dalam sebuah langkah penting, para peneliti Apple menggunakan alat dari pesaing Google untuk membuat kumpulan data. Mereka memanfaatkan editor gambar “Nano-Banana”untuk menghasilkan pengeditan dan model Gemini 2.5 Pro untuk memastikan kualitas dan akurasi. Kumpulan data lengkap kini tersedia di GitHub untuk penelitian non-komersial.

Upaya Lintas Perusahaan untuk Memecahkan Hambatan Penelitian

Dalam tampilan kolaborasi lintas industri yang mengejutkan, Apple berbalik kepada teknologi pesaing utamanya untuk membangun alat penelitian terbarunya.

Pembuatan set data Pico-Banana-400K didorong oleh hambatan yang terus-menerus dalam pengembangan AI: tidak adanya set data yang besar, berkualitas tinggi, dan dapat diakses secara terbuka berdasarkan gambar nyata. Banyak sumber daya yang ada sepenuhnya sintetis, terbatas dalam cakupan yang dikurasi oleh manusia, atau dibuat dengan model eksklusif, sehingga menghambat kemajuan komunitas luas.

Para peneliti Apple menyatakan bahwa tujuan mereka adalah untuk menciptakan “fondasi yang kuat untuk pelatihan dan tolok ukur model pengeditan gambar yang dipandu teks generasi berikutnya.”

Menurut makalah mereka, “Yang membedakan Pico-Banana-400K dari kumpulan data sintetis sebelumnya adalah pendekatan sistematis kami terhadap kualitas dan keragaman.”

Dengan mengambil foto asli dari koleksi OpenImages, tim ini menggunakan model Nano-Banana Google yang canggih, yang sekarang secara resmi dikenal sebagai Gemini 2.5 Flash Image, untuk menghasilkan beragam pengeditan.

Model Google kedua, Gemini-2.5-Pro, berfungsi sebagai juri otomatis untuk memastikan kepatuhan instruksi dan kualitas visual. Keseluruhan proses memakan biaya sekitar $100.000.

Insiden Kumpulan Data: Lebih dari Sekadar Pengeditan Tunggal

Menelusuri struktur kumpulan data akan mengungkap sumber daya yang dirancang untuk skenario penelitian yang kompleks. Meskipun diberi nama “400K”, koleksi ini sebenarnya terdiri dari 386.000 contoh hasil kurasi yang disusun ke dalam taksonomi terperinci dari 35 jenis pengeditan di delapan kategori utama.

Ini berkisar dari penyesuaian piksel dan fotometrik sederhana hingga perubahan semantik tingkat objek yang kompleks, pengeditan komposisi adegan, dan transformasi gaya.

Bagian terbesarnya berisi 258.000 contoh putaran tunggal untuk penyesuaian standar yang diawasi. Subkumpulan kedua menyediakan 72.000 contoh multi-putaran, sehingga memungkinkan penelitian terhadap pengeditan berurutan dan modifikasi sadar konteks di mana model harus melacak perubahan dalam beberapa langkah.

Terakhir, subkumpulan preferensi 56.000 contoh mencakup pasangan pengeditan yang berhasil dan gagal. Hal ini penting untuk penelitian penyelarasan dan untuk melatih model penghargaan yang dapat belajar membedakan keluaran berkualitas tinggi dari keluaran yang cacat. Para peneliti dapat mengakses kumpulan data lengkap di portal penelitian Apple di bawah lisensi non-komersial Creative Commons.

Menerangi Garis Depan dan Kegagalan Pengeditan AI

Bagi komunitas riset AI, rilis ini lebih dari sekadar kumpulan data baru; ini merupakan indikator yang jelas mengenai keunggulan teknologi dan tantangan yang masih dihadapi.

Metrik performa dari kumpulan data menunjukkan bahwa pengeditan global dan gaya, seperti menerapkan filter vintage atau mengubah keseluruhan suasana adegan menjadi “golden hour”, sangat dapat diandalkan. Namun, pengeditan yang memerlukan kontrol spasial dan pemahaman geometris yang tepat tetap menjadi tantangan yang signifikan.

Tugas seperti merelokasi objek dalam pemandangan memiliki tingkat keberhasilan di bawah 60%, dan pembuatan teks dalam gambar sangat sulit dilakukan.

Hal ini memberikan konteks yang berharga untuk pasar gambar AI yang sangat kompetitif. Model Nano-Banana yang mendasari Google menjadi editor gambar peringkat teratas di papan peringkat publik bahkan sebelum peluncuran resminya.

Keberhasilannya adalah bagian dari perlombaan industri yang lebih luas, dengan ByteDance meluncurkan model Seedream 4.0 sebagai penantang langsung dan teknologi lisensi Meta dari Midjourney setelah mengalami kemunduran internal.

Kemampuan dalam model ini berkembang pesat. Nicole Brichtova, product lead di Google DeepMind, mengatakan, “kami memberikan kemampuan yang biasanya memerlukan alat khusus ke tangan para pembuat konten, dan sangat menginspirasi melihat ledakan kreativitas yang dipicu oleh hal ini.”

Pengguna awal memuji konsistensi model ini. Andrew Carr, salah satu pendiri startup AI Cartwheel, merasakan kemampuan unik dari teknologi ini, dan menyatakan, “Model Gemini 2.5 Flash Image baru adalah yang pertama yang dapat menyediakan keduanya.”

Rilisan Apple juga sedang dibahas sebagai contoh utama dari “distilasi model”. Ini adalah proses yang menggunakan model yang besar dan kuat (Nano-Banana) untuk menghasilkan set data pelatihan yang sangat besar.

Peneliti lain kemudian dapat menggunakan data publik ini untuk melatih model yang lebih kecil, lebih efisien, dan berpotensi menjadi sumber terbuka yang meniru kemampuan sistem kepemilikan asli. Dengan mempublikasikan keluaran berkualitas tinggi ini, Apple secara efektif membantu mendemokratisasi akses terhadap AI yang canggih, mendorong lanskap penelitian yang lebih terbuka dan kolaboratif.

“`

Categories: IT Info