Google ha lanciato ufficialmente Gemini 2.5 Flash Image, il potente modello di AI che è diventato virale in agosto come”Nano Banana”, rendendolo generalmente disponibile per gli sviluppatori e le aziende in tutto il mondo.
Annunciato il 2 ottobre, lo strumento di rilascio di produzione è ora accessibile tramite l’API di Gemini, Google AI Studio e Vertex Ai. for 10 aspect ratios and enhanced character consistency for more realistic edits.
The move solidifies Google’s challenge to competitors like OpenAI and Adobe, aiming to put generazione di immagini all’avanguardia nelle mani di più creatori.
nuovi controlli creativi e successo di Early Adopter
Il primo modello è apparso in modo anonimo sulla piattaforma di valutazione significativa in terapia. rivelato.
Il rilascio di disponibilità generale il 2 ottobre anche significativi aggiornamenti incentrati sulla produzione.
Un miglioramento chiave è il supporto per 10 diversi rapporti di aspetto, che vanno dai formati del panorama cinematografico ai formati verticali sui social media. Ciò consente ai creatori di personalizzare il contenuto per piattaforme specifiche.
L’aggiornamento perfeziona anche la forza principale del modello:”Coerenza del personaggio”. Questa caratteristica, che preserva la somiglianza di un soggetto attraverso le principali modifiche, affronta un punto di fallimento comune per molti modelli di intelligenza artificiale.
Nicole Brichtova, un protagonista di Google DeepMind, ha osservato:”Stiamo mettendo le capacità che richiedono strumenti specializzati nelle mani di tutti i giorni, e permettiamo la capacità di scintille.”Per elaborare il testo e le immagini contemporaneamente. Ciò significa che può comprendere un’immagine esistente e incorporarla nel suo processo creativo, piuttosto che generare semplicemente da un prompt di testo.
Ciò consente modifiche più precise e coerenti durante una conversazione.
I primi utenti sono già integrando queste capacità. AI Startup Cartwheel ha trovato il modello in modo univoco in grado di gestire pose complesse da qualsiasi angolazione della telecamera.
Il co-fondatore Andrew Carr ha lodato Google, dicendo:”Altri modelli non hanno potuto rendere i personaggi da un angolo arbitrario o mantenere la fedeltà a una posa senza sacrificare la pausa. $ 0,039 per immagine e token di uscita di $ 30 per milione, un tasso competitivo volto a guidare l’adozione aziendale attraverso la sua piattaforma Vertex AI.
Una mossa calcolata nell’affollata razza di immagine AI
Il lancio è una risposta calcolata a un mercato con competizione fiercamente. La pressione intensificata dopo che Openi ha integrato il suo generatore di immagini GPT-4O direttamente in CHATGPT, guidando un enorme aumento del coinvolgimento degli utenti.
La strategia di Google prende di mira un vasto pubblico direttamente all’interno della sua app di chat, mirando all’adozione di massa.
Più recentemente, la pressione competitiva si sta intensificando su tutto il consiglio. Bytedance ha lanciato il suo modello SeedReam 4.0 come sfidante diretto a”Nano Banana”.
Meta ha anche ruotato la sua strategia per la generazione di immagini di intelligenza artificiale, optando per la licenza di tecnologia di Midjourney dopo le battute d’arresto interne a Stops.
Il bilanciamento del potere creativo con le nuove garanzie
La spinta di Google arriva dopo precedenti inciampanti nella generazione di immagini di AI.
La società ha affrontato un contraccolpo quando una prima versione di Gemini ha prodotto immagini storicamente imprecise di persone, costringendo una sospensione temporanea della funzione. Questo nuovo lancio è accompagnato da protocolli di sicurezza più robusti.
Per affrontare la crescente minaccia di DeepFakes, Google sta Waymarking All Generated Content.
Le immagini includeranno sia un marcatore visibile che un marchio di acqua sintociano crittografico invisibile per mostrare chiaramente che sono generati. Ciò contrasta con le battaglie legali che coinvolgono concorrenti come Midjourney.
Midjourney sta attualmente affrontando una causa di copyright di alto profilo di Disney e Universal sui suoi dati di formazione.
Evidenzia il complesso paesaggio etico e etico che deve navigare, prendendo una significativa decisione strategica. Modifica degli strumenti nel suo prodotto AI di punta, Google sta posizionando Gemini non solo come chatbot, ma sempre più come un motore creativo completo, simile a Openi, che ha appena lanciato il suo modello video AI Sora 2.
La mossa è una scommessa chiara che l’accessibilità e la fiducia possono conquistare gli utenti tradizionali nel campo in rapida evoluzione dell’IA generativa.