Google melancarkan model penyuntingan imej baru yang kuat untuk aplikasi Gemini pada hari Selasa. Dibangunkan oleh DeepMind, kemas kini memperkenalkan ciri-ciri canggih yang direka untuk memberi pengguna lebih banyak kawalan kreatif dan konsistensi, secara langsung mencabar pesaing seperti Openai dan Adobe. Pengguna kini boleh mengubah pakaian atau latar belakang tanpa menyimpang muka, menggabungkan foto ke dalam satu adegan, atau membuat perubahan berulang dalam aliran perbualan.
Langkah ini menandakan niat Google untuk menutup jurang pengguna dengan pesaing. Model baru kini diintegrasikan ke dalam aplikasi Gemini untuk semua pengguna dan juga tersedia kepada pemaju melalui API Gemini, Google AI Studio, dan Vertex Ai,
dari’nano-banana’ke penanda aras baru dalam penyuntingan AI
debut awam model didahului oleh pratonton yang tersembunyi, dan liar. Ia kelihatan tanpa nama pada platform penilaian orang ramai Lmarena sebagai”nano-banana,”dengan cepat menjana buzz dalam komuniti AI sebelum menjadi model penyuntingan imej tertinggi di dunia. David Sharon, yang memimpin untuk aplikasi Gemini, menyerlahkan penerimaannya yang bersemangat, menyatakan,”Orang ramai telah pergi ke arah pratonton awal-ia adalah model pengeditan imej tertinggi di dunia. Ini menangani titik kegagalan yang sama untuk banyak model AI, di mana mengedit latar belakang atau pakaian boleh memesongkan wajah subjek secara halus. Dengan kemas kini ini, pengguna boleh meletakkan subjek dalam senario yang sama sekali baru-mencuba pakaian yang berbeza, membayangkan profesion baru, atau bahkan melihat bagaimana mereka akan muncul dalam satu dekad lain-sementara href=”https://www.theverge.com/2025/08/26/24135791/google-mano-man-man-man-man-man-man-man-man-mani-man-man-mago-mago-mago-mago-mago-mago-mago-mago-mago-mago-mago-mago-mago-mago-ma Target=”_ Blank”> Memastikan mereka masih kelihatan seperti diri mereka .
Di luar mengekalkan rupa, model memperkenalkan suite pilihan kreatif canggih. Pengguna kini boleh menggabungkan pelbagai foto untuk membuat adegan komposit baru. Sebagai contoh, seseorang boleh mengambil gambar diri mereka dan satu lagi anjing mereka untuk menghasilkan potret sempurna mereka bersama-sama di gelanggang bola keranjang. Satu lagi ciri yang kuat membolehkan”pencampuran reka bentuk,”di mana gaya satu imej boleh digunakan pada objek yang lain, seperti memindahkan warna dan tekstur kelopak bunga ke sepasang hujan.
Seseorang boleh bermula dengan bilik kosong, kemudian minta Gemini untuk melukis dinding, menambah rak buku, meletakkan sofa, dan akhirnya meletakkan permaidani, dengan model memelihara integriti adegan pada setiap langkah. Nicole Brichtova, sebuah produk utama di Google DeepMind, menjelaskan matlamatnya adalah untuk meningkatkan kawalan kreatif, dengan menyatakan,”Kami benar-benar menolak kualiti visual ke hadapan, serta keupayaan model untuk mengikuti arahan.”AI Kreatif. Tekanan semakin meningkat dengan ketara selepas OpenAI mengintegrasikan penjana imej GPT-4O terus ke CHATGPT pada bulan Mac. Langkah itu mendorong lonjakan besar dalam penglibatan pengguna, didorong oleh meme virus yang mempamerkan kuasa dan kebolehcapaian model, menetapkan penanda aras baru untuk alat AI bersepadu.
Syarikat itu baru-baru ini melancarkan tiga ciri-ciri berkuasa yang berkuasa, termasuk’harmoni’untuk secara automatik memadankan warna dan pencahayaan objek tambahan,’kelas atas generatif’untuk meningkatkan resolusi, dan lebih baik’mengeluarkan alat’. Deepa Subramaniam, seorang VP Adobe, berkata pendekatan ini didorong oleh maklum balas pengguna, menjelaskan bahawa”inovasi baru ini datang dari perbualan kita yang berterusan dengan komuniti kreatif, di mana kita mendengar bagaimana kita dapat mengembangkan alat di Photoshop untuk menghapuskan halangan.”Pendekatan Google, sebaliknya, mensasarkan penonton pengguna yang lebih luas secara langsung dalam aplikasi sembangnya, yang bertujuan untuk menerima pakai massa.
Tekanan kompetitif semakin meningkat di seluruh papan, memaksa pemain terbesar untuk menyesuaikan diri. META baru-baru ini memusingkan strateginya selepas kemunduran pembangunan dalaman, memilih teknologi lesen dari Midjourney, seorang pemimpin dalam imejan AI yang bergaya. Ketua AI Meta, Alexandr Wang, membingkai langkah itu sebagai satu keperluan, menyatakan syarikat itu mesti mengambil”pendekatan semua-of-the-above”untuk menyampaikan produk terbaik. Pemain niche muncul untuk menyelesaikan masalah khusus dan berterusan. Sebagai contoh, fluks Black Forest Labs.1 Krea direkayasa untuk memerangi generik”Ai Look”dan mencapai lebih banyak photorealisme yang sahih. Begitu juga, model qwen-image sumber terbuka Alibaba unggul pada teks yang boleh dibaca, halangan utama untuk kebanyakan sistem generatif.
Mengimbangi kuasa kreatif dengan perlindungan baru
Syarikat itu menghadapi tindak balas yang signifikan apabila Gemini pada masa-masa awalnya menghasilkan imej orang yang tidak tepat secara sejarah, memaksa ia untuk menggantung sementara ciri tersebut. Pelancaran baru ini disertai dengan protokol keselamatan yang lebih mantap.
Imej-imej akan merangkumi kedua-dua penanda yang kelihatan dan tanda air sintetik kriptografi yang tidak dapat dilihat dengan jelas menunjukkan bahawa mereka adalah AI-dihasilkan. Midjourney kini menghadapi tuntutan hak cipta berprofil tinggi dari Disney dan Universal atas data latihannya. Penasihat umum Disney, Horacio Gutierrez, telah mengambil garis keras, menyatakan,”Pembajakan adalah cetak rompak dan hakikat bahawa ia dilakukan oleh syarikat A.I. tidak membuatnya kurang melanggar.”Seperti yang dinyatakan oleh ahli strategi AI, Nate Jones,”Ketika kami menetapkan dominasi papan pendahulu sebagai matlamat, kami berisiko membuat model yang cemerlang dalam latihan remeh dan gumpalan ketika menghadapi realiti.”Posisi gerakan Gemini bukan hanya sebagai chatbot, tetapi sebagai enjin kreatif yang komprehensif dalam landskap AI generatif yang pesat berkembang.