Google realizează marți un nou model puternic de editare a imaginilor pentru aplicația Gemini. Dezvoltată de DeepMind, actualizarea introduce caracteristici avansate concepute pentru a oferi utilizatorilor un control și consistență mai creative, rivali provocatori direct precum OpenAI și Adobe.
Upgrade-ul își propune să rezolve unul dintre cele mai persistente defecte ale AI: menținerea asemănării unei persoane între modificări. Utilizatorii pot modifica acum ținute sau fundaluri fără a distorsiona fețele, pot amesteca fotografiile într-o singură scenă sau pot face modificări iterative într-un flux de conversație.
Această mișcare semnalează intenția Google de a închide decalajul utilizatorului cu concurenții. Noul model este acum integrat în aplicația Gemini pentru toți utilizatorii și este disponibil și pentru dezvoltatori prin intermediul API-ului Gemini, Google AI Studio și Vertex AI, Potrivit anunțului oficial . lățime=”1032″înălțime=”505″src=”date: imagine/svg+xml; nitro-go-id=mtyzodoxmja1-1; base64, phn2zyb2awv3qm94psiwidagmtazmia1md UIIHDPZHROPSIXMDMYIIBOZWLNAHQ9IJUWNSIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>
de la „Nano-Banana” la un nou punct de referință în AI Editare
Debutul public al modelului a fost precedat de o previzualizare furioasă și de succes sălbatic. A apărut anonim pe platforma de evaluare aglomerată Lmarena drept „nano-banana”, generând rapid zumzet în comunitatea AI înainte de a deveni model de editare a imaginii de top . David Sharon, un rol principal pentru aplicațiile Gemeni, și-a evidențiat recepția entuziastă, afirmând: „Oamenii au mers banane peste ea deja în previzualizări timpurii-este cel mai bine cotat model de editare a imaginilor din lume. Acest lucru abordează un punct de eșec comun pentru multe modele AI, în care editarea unui fundal sau a unei ținute poate denatura subtil chipul unui subiect. Cu această actualizare, utilizatorii pot plasa subiecți în scenarii cu totul noi-încercând diferite ținute, imaginându-și noi profesii sau chiar văzând cum ar apărea într-un alt deceniu-de când
Actualizarea permite, de asemenea, editarea multi-turn, un proces de conversație în care utilizatorii pot construi o imagine cu solicitări secvențiale. S-ar putea începe cu o cameră goală, apoi cereți lui Gemini să picteze pereții, să adauge un raft de cărți, să plaseze o canapea și să se așeze în cele din urmă un covor, modelul păstrând integritatea scenei la fiecare pas. Nicole Brichtova, un produs de produs la Google DeepMind, a explicat că obiectivul a fost de a îmbunătăți controlul creativ, menționând: „Împingem cu adevărat calitatea vizuală înainte, precum și capacitatea modelului de a urma instrucțiunile. de AI creativ. Presiunea s-a intensificat semnificativ după ce OpenAI și-a integrat generatorul de imagini GPT-4O direct în ChatGPT în martie. Această mișcare a determinat o creștere masivă a implicării utilizatorilor, alimentată de memorii virale care au prezentat puterea și accesibilitatea modelului, stabilind un nou punct de referință pentru instrumentele AI integrate.
Între timp, liderul de software creativ, Adobe, a susținut agresiv produsul său flagship, Photoshop. Compania a lansat recent un trio de caracteristici puternice, alimentate de Firefly, inclusiv „Harmonize” pentru a se potrivi automat cu culoarea și iluminarea obiectelor adăugate, „Upscale generative” pentru a îmbunătăți rezoluția, iar un instrument îmbunătățit „Eliminare”
strategia Adobe este de a-și apăra gazonul profesionist prin încorporarea AI în profunzime în profunzime de lucru stabilit. Deepa Subramaniam, un VP Adobe, a declarat că această abordare este determinată de feedback-ul utilizatorilor, explicând că „aceste noi inovații provin din conversațiile noastre în curs de desfășurare cu comunitatea creativă, unde auzim cum putem evolua instrumente în Photoshop pentru a elimina barierele”. În schimb, abordarea Google vizează o audiență de consum mai largă direct în aplicația sa de chat, care vizează adoptarea în masă.
Presiunea competitivă se intensifică peste tot, forțând chiar și cei mai mari jucători să se adapteze. Meta și-a pivotat recent strategia după întârzieri de dezvoltare internă, opind pentru a licența tehnologia de la Midjourney, un lider în imagini AI stilizate. Șeful AI al Meta, Alexandr Wang, a încadrat mișcarea ca o necesitate, afirmând că compania trebuie să adopte o „abordare a întregii de sus” pentru a oferi cele mai bune produse.
Această tendință evidențiază o piață care se consolidează atât în rândul giganților, cât și în specializarea rapidă. Jucătorii de nișă apar pentru a rezolva probleme specifice, persistente. De exemplu, fluxul Black Forest Labs.1 Modelul KREA este conceput pentru a combate „aspectul AI” generic și pentru a obține mai mult fotorealism autentic. În mod similar, modelul QWEN-Image-Image-Image de la Alibaba excelează la redactarea textului lizibil, un obstacol major pentru majoritatea sistemelor generative.
echilibrarea puterii creative cu noi garanții
Împingerea Google vine după atașarea anterioară a generației de imagini AI. Compania s-a confruntat cu o reacție semnificativă atunci când Gemeni în primele zile a produs imagini inexacte din punct de vedere istoric ale oamenilor, forțându-l să suspende temporar caracteristica. Această nouă lansare este însoțită de protocoale de siguranță mai robuste.
pentru a aborda amenințarea din ce în ce mai mare de deepuri și dezinformare, Google este filigranat întregul conținut generat. Imaginile vor include atât un marker vizibil, cât și un filigran sintetizat invizibil, criptografic, pentru a arăta clar că sunt generate de AI.
Acest lucru contrastează cu luptele legale și etice care înglobează concurenții. Midjourney se confruntă în prezent cu un proces de drept de drept de înaltă calitate de la Disney și Universal în ceea ce privește datele sale de instruire. Avocatul general al Disney, Horacio Gutierrez, a luat o linie grea, afirmând: „Pirateria este pirateria. Și faptul că este realizată de o companie A.I. nu o face mai puțin să încalce. După cum a menționat strategul AI, Nate Jones, „în momentul în care am stabilit dominanța clasamentului ca obiectiv, riscăm să creăm modele care să exceleze în exerciții banale și să se confrunte atunci când se confruntă cu realitatea. Mișcarea poziționează Gemeni nu doar ca un chatbot, ci ca un motor creativ cuprinzător în peisajul AI generativ în evoluție rapidă.