Google rullar ut en kraftfull ny bildredigeringsmodell för sin Gemini-app på tisdag. Uppdateringen utvecklas av DeepMind, introducerar avancerade funktioner som är utformade för att ge användarna mer kreativ kontroll och konsistens, direkt utmanande rivaler som OpenAI och Adobe.
Uppgraderingen syftar till att lösa en av AI: s mest ihållande brister: att upprätthålla en persons likhet mellan redigeringar. Användare kan nu ändra kläder eller bakgrunder utan att snedvrida ansikten, blanda foton i en enda scen eller göra iterativa förändringar i ett konversationsflöde.
Detta drag signalerar Googles avsikt att stänga användargapet med konkurrenter. Den nya modellen är nu integrerad i Gemini-appen för alla användare och är också tillgänglig för utvecklare via Gemini API, Google AI Studio och Vertex Ai, bredd=”1032″höjd=”505″src=”data: image/svg+xml; nitro-empty-id=mtyznzoxmja1-1; base64, phn2zyb2awv3qm94psiwidagmtazmia1md Uiihdpzhropsixmdmyiibozwlnahq9ijuwnSigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>>
från’Nano-Banana’till ett nytt riktmärke i AI-redigering
Modellens offentliga debut föregicks av en snygg och väldigt framgångsrik förhandsvisning. Det verkade anonymt på den utvärderingsplattformen för crowdsourced lmarena som”nano-banana”, snabbt genererade surr i AI-communityn innan han blev världens TOP-RATED Image Editing Model
Its core strength is “character consistency,”a groundbreaking feature that preserves the identity of a person or pet through major transformations. Detta behandlar en vanlig felpunkt för många AI-modeller, där redigering av en bakgrund eller en outfit kan subtilt snedvrida ett motivs ansikte. Med den här uppdateringen kan användare placera ämnen i helt nya scenarier-försöka ut olika kläder, föreställa sig nya yrken eller till och med se hur de skulle dyka upp i ett annat decennium-medan För att säkerställa att de fortfarande ser ut som sig själva .
Utöver att upprätthålla likhet introducerar modellen en svit med avancerade kreativa alternativ. Användare kan nu blanda flera foton för att skapa en helt ny sammansatt scen. Till exempel kan man ta ett foto av sig själva och ett annat av deras hund för att generera ett perfekt porträtt av dem tillsammans på en basketplan. En annan kraftfull funktion möjliggör”designblandning”, där stilen på en bild kan tillämpas på ett objekt i ett annat, till exempel att överföra färgen och strukturen på blommaketblad till ett par regnbockar.
Uppdateringen möjliggör också redigering av flera svängar, en konversationsprocess där användare kan bygga upp en bild med sekventiella uppkomster. Man kan börja med ett tomt rum, sedan be Gemini att måla väggarna, lägga till en bokhylla, placera en soffa och slutligen lägga en matta, med modellen som bevarar scenens integritet vid varje steg. Nicole Brichtova, a product lead at Google DeepMind, explained the goal was to enhance creative control, noting, “we’re really pushing visual quality forward, as well as the model’s ability to follow instructions.”
A New Leader in the AI Image Competition
This release is a clear and calculated response to a fiercely competitive market where tech giants are racing to define the future av kreativ AI. Trycket intensifierades avsevärt efter att OpenAI integrerade sin GPT-4O-bildgenerator direkt i chatgpt i mars. Den rörelsen drev en massiv kraft i användarengagemanget, drivet av virala memes som visade modellens kraft och tillgänglighet, vilket satt ett nytt riktmärke för integrerade AI-verktyg.
Under tiden har den sittande kreativa mjukvareledaren Adobe aggressivt förstärkt sin flaggskeppsprodukt, Photoshop. Företaget rullade nyligen ut en trio av kraftfulla, eldfluktdrivna funktioner, inklusive”Harmonize”för att automatiskt matcha färgen och belysningen av tillagda objekt,”generativ exklusiv”för att förbättra upplösningen och ett förbättrat”ta bort verktyg”. Deepa Subramaniam, en Adobe VP, sa att detta tillvägagångssätt drivs av användaråterkoppling och förklarar att”dessa nya innovationer kommer från våra pågående samtal med det kreativa samhället, där vi hör hur vi kan utveckla verktyg i Photoshop för att ta bort hinder.”Googles tillvägagångssätt riktar däremot en bredare konsumentpublik direkt inom sin chattapp och strävar efter massanpassning.
Konkurrenstrycket intensifieras över hela linjen och tvingar även de största spelarna att anpassa sig. Meta pivoterade nyligen sin strategi efter interna utvecklingar av utvecklingen och valde att licensiera teknik från Midjourney, ledande inom stiliserade AI-bilder. Metas AI-chef, Alexandr Wang, inramade flytten som en nödvändighet och säger att företaget måste ta en”allt-av-för-ovan-strategi”för att leverera de bästa produkterna.
Denna trend belyser en marknad som både konsolideras bland jättar och snabbt specialiserat. Nischspelare dyker upp för att lösa specifika, ihållande problem. Till exempel är Black Forest Labs flöde.1 KREA-modell konstruerad för att bekämpa den generiska”AI-utseendet”och uppnå mer autentisk fotorealism. På liknande sätt utmärker Alibabas Open-Source Qwen-Image-modell vid rendering av läsbar text, ett stort hinder för de flesta generativa system.
balansering av kreativ kraft med nya skyddsåtgärder
Googles push kommer efter att tidigare stött i AI-bildgenerering. Företaget mötte betydande motspel när Gemini under sina tidiga dagar producerade historiskt felaktiga bilder av människor, vilket tvingade det att tillfälligt stänga av funktionen. Denna nya lansering åtföljs av mer robusta säkerhetsprotokoll.
För att ta itu med det växande hotet om DeepFakes och felinformation, är Google vattenmärkning allt genererat innehåll. Bilderna kommer att inkludera både en synlig markör och ett osynligt, kryptografiskt synthid vattenstämpel för att tydligt visa att de är AI-genererade.
Detta står i kontrast till de juridiska och etiska strider som involverar konkurrenter. Midjourney står för närvarande inför en högprofilerad upphovsrätt från Disney och Universal över sina utbildningsdata. Disneys generaladvokat, Horacio Gutierrez, har tagit en hård linje och säger,”Piratkopiering är piratkopiering. Och det faktum att det görs av ett A.I.-företag gör det inte mindre kränkande.”
Branschen står också inför skepsis över tillförlitligheten för AI Benchmarks. Som AI-strategen Nate Jones noterade,”Det ögonblick som vi sätter upp toppdominans som mål, riskerar vi att skapa modeller som utmärker sig i triviala övningar och flundra när vi möter verkligheten.”
Genom att inbäddar kraftfulla, användarvänliga redigeringsverktyg i sin flaggskepp AI-produkt, satsar Google att tillgänglighet och kreativ kontroll kan vinna över huvudsakliga användare. Flytten positionerar Gemini inte bara som en chatbot, utan som en omfattande kreativ motor i det snabbt utvecklande generativa AI-landskapet.