Google sta lanciando un nuovo potente modello di editing di immagini per la sua app Gemini martedì. Sviluppato da DeepMind, l’aggiornamento introduce funzionalità avanzate progettate per offrire agli utenti un controllo e una coerenza più creativi, sfidando direttamente rivali come Openai e Adobe.

L’upgrade mira a risolvere uno dei difetti più persistenti di AI: mantenere la somiglianza di una persona attraverso gli modifiche. Gli utenti possono ora modificare gli abiti o gli sfondi senza distorcere i volti, fondere le foto in una singola scena o apportare modifiche iterative in un flusso conversazionale.

Questa mossa segnala l’intenzione di Google di colmare il divario dell’utente con i concorrenti. Il nuovo modello è ora integrato nell’app Gemini per tutti gli utenti ed è anche disponibile per gli sviluppatori tramite l’API Gemini, Google AI Studio e Vertex AI, secondo l’annuncio ufficiale . larghezza=”1032″altezza=”505″src=”Dati: immagine/svg+xml; nitro-empty-id=mtyznzoxmja1-1; base64, pHn2zyb2awv3qm94psiwidagmtazmia1md UiiHdpzhropixmdmyiibozwlnahq9ijuwnsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Da”Nano-Banana”a un nuovo punto di riferimento nell’editing AI

Il debutto pubblico del modello è stato preceduto da un’anteprima furtiva e di grande successo. Sembrava anonimo sulla piattaforma di valutazione crowdsourcing Lmarena come”Nano-Banana”, generando rapidamente il ronzio nella comunità AI prima di diventare il mondo modello di editing di immagini in alto . David Sharon, un protagonista per le app Gemini, ha messo in evidenza il suo entusiasta accoglienza, affermando:”Le persone hanno già superato le banane nelle prime anteprime-è il modello di editing di immagini più votato nel mondo.”

La sua forza principale è”coerenza del personaggio”, una caratteristica innovativa che ha preservato l’identità di una persona o per le principali trasformazioni. Ciò affronta un punto di fallimento comune per molti modelli di intelligenza artificiale, in cui la modifica di uno sfondo o un outfit può distorcere sottilmente il viso di un soggetto. Con questo aggiornamento, gli utenti possono collocare argomenti in scenari completamente nuovi: provare diversi abiti, immaginare nuove professioni o persino vedere come appariranno in un altro decennio-mentre .

Oltre a mantenere la somiglianza, il modello introduce una suite di opzioni creative avanzate. Gli utenti possono ora fondere più foto per creare una nuova scena composita di zecca. Ad esempio, si potrebbe scattare una foto di se stessi e di un altro del loro cane per generare un ritratto perfetto di loro insieme su un campo da basket. Un’altra potente caratteristica consente di”miscelazione del design”, in cui lo stile di un’immagine può essere applicato a un oggetto in un altro, come il trasferimento del colore e della trama dei petali di fiori su una coppia di stivali da pioggia. Si potrebbe iniziare con una stanza vuota, quindi chiedere a Gemini di dipingere le pareti, aggiungere uno scaffale, posizionare un divano e infine posare un tappeto, con il modello che preserva l’integrità della scena ad ogni passo. Nicole Brichtova, un protagonista di Google DeepMind, ha spiegato che l’obiettivo era migliorare il controllo creativo, osservando:”Stiamo davvero spingendo la qualità visiva in avanti, così come la capacità del modello di seguire le istruzioni.”

un nuovo leader nella competizione di immagini AI

questa versione è una risposta chiara e calcolata a una risposta alle competizioni per la competizione di AI AI creativa. La pressione si è intensificata in modo significativo dopo che Openi ha integrato il suo generatore di immagini GPT-4O direttamente in Chatgpt a marzo. Quella mossa ha guidato un enorme aumento del coinvolgimento degli utenti, alimentato da meme virali che hanno mostrato la potenza e l’accessibilità del modello, impostando un nuovo punto di riferimento per gli strumenti di intelligenza artificiale integrati. La società ha recentemente implementato un trio di potenti funzionalità alimentate da lucciola, tra cui”armonizzare”per abbinare automaticamente il colore e l’illuminazione di oggetti aggiunti,”upscale generativo”per migliorare la risoluzione e uno”strumento di rimozione”migliorato.

Adobe La strategia è di difendere il suo tappeto erboso professionale incorporando in profondità i flussi di lavoro stabiliti. Deepa Subramaniam, un vicepresidente di Adobe, ha affermato che questo approccio è guidato dal feedback degli utenti, spiegando che”queste nuove innovazioni provengono dalle nostre conversazioni in corso con la comunità creativa, dove sentiamo come possiamo evolvere strumenti in Photoshop per rimuovere le barriere”. L’approccio di Google, al contrario, si rivolge a un pubblico di consumo più ampio direttamente all’interno della sua app di chat, mirando all’adozione di massa.

La pressione competitiva si sta intensificando su tutta la linea, costringendo anche i più grandi giocatori ad adattarsi. Meta ha recentemente ruotato la sua strategia dopo battute d’arresto dello sviluppo interno, optando per la licenza di tecnologia di Midjourney, leader nelle immagini di AI stilizzate. Il capo AI di Meta, Alexandr Wang, incorniciava la mossa come necessità, affermando che la società deve adottare un”approccio tutto tra il padiglione”per fornire i migliori prodotti.

Questa tendenza mette in evidenza un mercato che si consolida tra i giganti e rapidamente specializzato. I giocatori di nicchia stanno emergendo per risolvere problemi specifici e persistenti. Ad esempio, il flusso di Black Forest Labs.1 Il modello Krea è progettato per combattere il generico”aspetto AI”e ottenere fotorealismo più autentico. Allo stesso modo, il modello Open-Source Qwen-Image di Alibaba eccelle nel rendering di testo leggibile, un grande ostacolo per la maggior parte dei sistemi generativi.

bilanciando il potere creativo con nuove salvaguardie

La spinta di Google arriva dopo che precede precedenti nella generazione di immagini AI. La società ha affrontato un notevole contraccolpo quando Gemini nei suoi primi giorni ha prodotto immagini storicamente inaccurate di persone, costringendolo a sospendere temporaneamente la funzione. Questo nuovo lancio è accompagnato da protocolli di sicurezza più robusti.

Per affrontare la crescente minaccia di profondi e disinformazione, Google sta watermarking tutti i contenuti generati. Le immagini includeranno sia un marcatore visibile che una filigrana invisibile e crittografica sintetica per dimostrare chiaramente di essere generate dall’aria ai. Midjourney sta attualmente affrontando una causa di copyright di alto profilo da Disney e Universal per i suoi dati di formazione. Il consulente generale della Disney, Horacio Gutierrez, ha preso una linea dura, affermando:”La pirateria è la pirateria. E il fatto che sia fatto da una società A.I. non lo rende meno violaceo”.

L’industria deve anche affrontare lo scetticismo sull’affidabilità dei benchmark AI. Come ha osservato lo stratega di intelligenza artificiale Nate Jones,”Il momento in cui abbiamo impostato il dominio della classifica come obiettivo, rischiamo di creare modelli che eccellono negli esercizi banali e in difficoltà quando affrontiamo la realtà.”

Incorporando strumenti di editing potenti e user-friendly nel suo prodotto di AI di punta, Google sta scommettendo che l’accessibilità e il controllo creativo possono vincere sopra gli utenti mainstream. La mossa posiziona Gemelli non solo come chatbot, ma come un motore creativo completo nel paesaggio generativo in rapida evoluzione dell’IA.