Google telah resmi meluncurkan Gemini 2.5 Flash Image, model AI canggih yang menjadi viral pada bulan Agustus dengan nama “Nano Banana”, sehingga tersedia secara umum bagi pengembang dan perusahaan di seluruh dunia.
Diumumkan pada tanggal 2 Oktober, alat siap produksi kini dapat diakses melalui Gemini API, Google AI Studio, dan Vertex AI.
Rilis besar ini memperkenalkan kemampuan kreatif baru, termasuk dukungan untuk 10 rasio aspek dan konsistensi karakter yang ditingkatkan untuk pengeditan yang lebih realistis.
Langkah ini memperkuat tantangan Google terhadap pesaing seperti OpenAI dan Adobe, yang bertujuan untuk menghadirkan teknologi canggih pembuatan gambar ke tangan lebih banyak pembuat konten.
Kontrol Kreatif Baru dan Kesuksesan Pengguna Awal
Model ini pertama kali muncul secara anonim di platform evaluasi crowdsourcing LMArena sebagai “nano-banana”, dengan cepat menjadi model pengeditan gambar dengan rating tertinggi di dunia.
Strategi ini menghasilkan buzz organik yang signifikan sebelum merek resminya diumumkan.
Rilis ketersediaan umum pada tanggal 2 Oktober juga merupakan peningkatan signifikan yang berfokus pada produksi.
Peningkatan utama adalah dukungan untuk 10 rasio aspek berbeda, mulai dari lanskap sinematik hingga format media sosial vertikal. Hal ini memungkinkan pembuat konten menyesuaikan konten untuk platform tertentu.
Pembaruan ini juga menyempurnakan kekuatan inti model: “konsistensi karakter”. Fitur ini, yang mempertahankan kesamaan subjek di seluruh pengeditan besar, mengatasi titik kegagalan umum pada banyak model AI.
Nicole Brichtova, pimpinan produk di Google DeepMind, mengatakan, “kami menempatkan kemampuan yang biasanya memerlukan alat khusus ke tangan para pembuat konten sehari-hari, dan sangat menginspirasi melihat ledakan kreativitas yang dipicu oleh hal ini.”
Kemampuan multimodal asli model ini memungkinkan hal ini terjadi. untuk memproses teks dan gambar secara bersamaan. Artinya, ia dapat memahami gambar yang sudah ada dan memasukkannya ke dalam proses kreatifnya, bukan hanya menghasilkan dari perintah teks.
Hal ini memungkinkan pengeditan percakapan yang lebih tepat dan konsisten.
Pengguna awal sudah mengintegrasikan kemampuan ini. Startup AI Cartwheel menemukan bahwa model ini secara unik mampu menangani pose kompleks dari sudut kamera mana pun.
Salah satu pendiri Andrew Carr memuji Google, dengan mengatakan, “Model lain tidak dapat menampilkan karakter dari sudut kamera yang sewenang-wenang atau mempertahankan kesetiaan pada suatu pose tanpa mengorbankan’pengetahuan dunia’. Model Gambar Flash Gemini 2.5 yang baru adalah yang pertama yang dapat menyediakan keduanya.”
Google telah menetapkan harga sebesar $0,039 per gambar dan $30 per juta token keluaran, tingkat kompetitif yang bertujuan untuk mendorong adopsi perusahaan melalui platform Vertex AI-nya.
Langkah Terhitung dalam Perlombaan Gambar AI yang Ramai
Peluncuran ini merupakan respons yang diperhitungkan terhadap pasar yang sangat kompetitif. Tekanan semakin meningkat setelah OpenAI mengintegrasikan generator gambar GPT-4o langsung ke ChatGPT, sehingga mendorong lonjakan besar dalam keterlibatan pengguna.
Strategi Google menargetkan khalayak luas langsung dalam aplikasi chatnya, yang bertujuan untuk adopsi massal.
Baru-baru ini, tekanan persaingan semakin meningkat di seluruh bidang. ByteDance telah meluncurkan model Seedream 4.0 sebagai penantang langsung “Nano Banana”.
Meta juga telah mengubah strateginya untuk menghasilkan gambar AI, memilih untuk melisensikan teknologi dari Midjourney setelah mengalami kemunduran internal.
Pasar telah melihat munculnya pemain khusus, seperti Black Forest Labs yang berfokus pada fotorealisme dan model Alibaba yang unggul dalam rendering teks.
Menyeimbangkan Kekuatan Kreatif dengan Perlindungan Baru
Dorongan Google muncul setelah kegagalan sebelumnya dalam pembuatan gambar AI.
Perusahaan menghadapi reaksi keras ketika versi awal Gemini menghasilkan gambar orang yang secara historis tidak akurat, sehingga memaksa penghentian sementara fitur tersebut. Peluncuran baru ini disertai dengan protokol keamanan yang lebih kuat.
Untuk mengatasi meningkatnya ancaman deepfake, Google memberi tanda air pada semua konten yang dihasilkan.
Gambar akan menyertakan penanda yang terlihat dan tanda air kriptografi SynthID yang tidak terlihat untuk menunjukkan dengan jelas bahwa gambar tersebut dihasilkan oleh AI. Hal ini kontras dengan pertarungan hukum yang melibatkan pesaing seperti Midjourney.
Midjourney saat ini menghadapi tuntutan hukum hak cipta tingkat tinggi dari Disney dan Universal atas data pelatihannya.
Hal ini menyoroti lanskap hukum dan etika kompleks yang harus dijalani oleh semua perusahaan AI, menjadikan watermarking proaktif Google sebagai keputusan strategis yang signifikan.
Dengan menyematkan pengeditan yang ramah pengguna alat ke dalam produk AI andalannya, Google memposisikan Gemini tidak hanya sebagai chatbot, namun semakin menjadi mesin kreatif yang komprehensif, mirip dengan OpenAI, yang baru saja meluncurkan model video AI Sora 2.
Langkah ini jelas menunjukkan bahwa aksesibilitas dan kepercayaan dapat memenangkan hati pengguna arus utama di bidang AI generatif yang berkembang pesat.