Google a lansat oficial GEMINI 2.5 Flash Image, puternicul model AI care a devenit viral în august ca „Nano Banana”, făcându-l în general disponibil pentru dezvoltatori și întreprinderi din întreaga lume.
anunțat pe 2 octombrie, instrumentul pregătit pentru producție este acum accesibil prin intermediul Gemini API, Google AI Studio și Vertex AI. 10 aspect ratios and enhanced character consistency for more realistic edits.
The move solidifies Google’s challenge to competitors like OpenAI and Adobe, aiming to put Generarea imaginii de ultimă generație în mâinile mai multor creatori.
noi controale creative și succesul timpuriu al adoptării
Modelul a apărut în mod anonim pe platforma de evaluare aglomerată Lmarena, deoarece „nano-banana, devenind rapid strategia de organizare a lumii, înainte de a fi odată de bord oficial. dezvăluit.
Comunicatul general de disponibilitate pe 2 octombrie, de asemenea, upgrade-uri semnificative orientate către producție.
O îmbunătățire cheie este sprijinul pentru 10 raporturi de aspect diferite, de la peisajul cinematografic la formatele verticale de social media. Acest lucru permite creatorilor să adapteze conținutul pentru platforme specifice.
Actualizarea rafinează, de asemenea, puterea de bază a modelului: „Coerența personajelor”. Această caracteristică, care păstrează asemănarea unui subiect în modificările majore, abordează un punct de eșec comun pentru multe modele AI.
Nicole Brichtova, un produs de produs la Google DeepMind, a menționat: „Punem capacități care necesită instrumente specializate în mâinile creatorilor de zi cu zi, și a fost inspirat să vadă explozia de creativitate pe care a stârnit-o. Pentru a prelucra text și imagini simultan. Acest lucru înseamnă că poate înțelege o imagine existentă și o încorporează în procesul său creativ, mai degrabă decât să genereze dintr-un prompt de text.
Acest lucru permite modificări mai precise și consecvente în ceea ce privește o conversație.
adoptatorii timpurii integrează deja aceste capacități. AI Startup Cartwheel a găsit modelul în mod unic capabil să gestioneze poze complexe din orice unghi al camerei.
co-fondatorul Andrew Carr a lăudat Google, spunând: „Alte modele nu ar putea reda personaje din unghiurile arbitrare ale camerei sau să mențină credincioșia pentru o poză fără a sacrifica„ cunoștințele mondiale “. Noul Gemini 2.5, a fost primul care ar putea oferi ambele. 0,039 USD pe imagine și 30 de dolari pe milion de jetoane de ieșire, o rată competitivă care vizează conducerea adoptării întreprinderii prin intermediul platformei sale AI Vertex.
O mișcare calculată în cursa de imagine AI aglomerată
Lansarea este un răspuns calculat la o piață competitivă. Presiunea s-a intensificat după ce OpenAI și-a integrat generatorul de imagini GPT-4O direct în ChatGPT, ceea ce a determinat o creștere masivă a implicării utilizatorilor.
Strategia Google vizează o audiență largă direct în aplicația sa de chat, urmărind adoptarea în masă.
Mai recent, presiunea competitivă se intensifică peste tot. Bytedance și-a lansat modelul Seedream 4.0 ca un provocator direct la „Nano Banana”.
Meta și-a pivotat și strategia pentru generarea de imagini AI, optarea către licența tehnologiei de la Midjourney după ce întârzieri interne.
Piața a văzut jucători specializați, cum ar fi un black al Black Forest Labs, care concentrează pe fotorealism și albaba care se exclude în textul laboratoare.
Echilibrarea puterii creative cu noi garanții
apăsarea Google vine după ce se poticnește anterior în generarea de imagini AI.
Compania s-a confruntat cu reacții când o versiune timpurie a Gemini a produs imagini inexacte din punct de vedere istoric ale oamenilor, forțând o suspensie temporară a caracteristicii. Această nouă lansare este însoțită de protocoale de siguranță mai robuste.
Pentru a aborda amenințarea din ce în ce mai mare a DeepFakes, Google este filigranând tot conținutul generat.
Imaginile vor include atât un marker vizibil, cât și un filigran sintetizat criptografic invizibil, pentru a arăta clar că sunt generate AI. Acest lucru contrastează cu bătăliile legale care înglobează concurenți, precum Midjourney.
Midjourney se confruntă în prezent cu un proces de drepturi de autor cu profil înalt de la Disney și Universal în ceea ce privește datele sale de instruire.
evidențiază complexul peisaj legal și etic pe care toate companiile AI trebuie să-l navigheze, făcând ca un peisaj legal de protecție Google să fie o decizie strategică semnificativă pe care o decizie strategică semnificativă. Editarea instrumentelor în produsul său AI-pilot, Google poziționează Gemini nu doar ca un chatbot, ci și din ce în ce mai mult ca un motor creativ cuprinzător, similar cu OpenAI, care tocmai a lansat modelul său video Sora 2 AI.
Mișcarea este un pariu clar că accesibilitatea și încrederea pot câștiga față de utilizatorii mainstream în câmpul în evoluție rapidă a AI-ului generativ