Google ruller ut en kraftig ny bildedigeringsmodell for Gemini-appen sin på tirsdag. Oppdateringen er utviklet av DeepMind, og introduserer avanserte funksjoner designet for å gi brukerne mer kreativ kontroll og konsistens, direkte utfordrende rivaler som Openai og Adobe.
Oppgraderingen har som mål å løse en av AIs mest vedvarende feil: å opprettholde en persons likhet på tvers av redigeringer. Brukere kan nå endre antrekk eller bakgrunn uten å forvrenge ansikter, blande bilder til en enkelt scene, eller gjøre iterative endringer i en samtaleflyt.
Dette trekket signaliserer Googles intensjon om å lukke brukergapet med konkurrenter. Den nye modellen er nå integrert i Gemini-appen for alle brukere, og er også tilgjengelig for utviklere via Gemini API, Google AI Studio og Vertex AI, top-rated image editing model . David Sharon, en ledelse for Gemini-apper, fremhevet sin entusiastiske mottakelse, og uttalte:”Folk har gått bananer over det allerede i tidlige forhåndsvisninger-det er den topprangerte bildedigeringsmodellen i verden.”
Dets kjernestyrke er”karakterkonsistensen,”et bakkebrytende trekk som et person eller pedning av et person. Dette adresserer et felles feilpunkt for mange AI-modeller, der redigering av en bakgrunn eller et antrekk kan forvrenge ansiktet til subtilt. Med denne oppdateringen kan brukere plassere emner i helt nye scenarier-ved å prøve ut forskjellige antrekk, forestille seg nye yrker eller til og med se hvordan de ville vises i et tiår-mens Sikre at de fremdeles ser ut som seg selv .
Utover å opprettholde likhet, introduserer modellen en serie avanserte kreative alternativer. Brukere kan nå blande flere bilder for å lage en helt ny kompositt scene. For eksempel kan man ta et bilde av seg selv og en annen av hunden sin for å generere et perfekt portrett av dem sammen på en basketballbane. En annen kraftig funksjon gir mulighet for”designblanding”, der stilen til ett bilde kan brukes på et objekt i et annet, for eksempel å overføre fargen og teksturen til blomsterblader på et par regnbuer.
Oppdateringen muliggjør også redigering av flere svinger, en samtalesprosess der brukere kan bygge opp et bilde med sekvensielle spørsmål. Man kan starte med et tomt rom, deretter be Gemini om å male veggene, legge til en bokhylle, plassere en sofa og til slutt legge et teppe, med modellen som bevarer scenens integritet på hvert trinn. Nicole Brichtova, en produktleder hos Google DeepMind, forklarte at målet var å styrke kreativ kontroll, og bemerker:”Vi presser virkelig visuell kvalitet fremover, så vel som modellens evne til å følge instruksjoner.”av Creative AI. Trykket forsterket seg betydelig etter at Openai integrerte sin GPT-4O-bildegenerator direkte i ChatGPT i mars. Dette trekket drev en massiv bølge i brukerengasjement, drevet av virale memes som viste modellens kraft og tilgjengelighet, og satte et nytt mål for integrerte AI-verktøy.
I mellomtiden har den sittende kreative programvarelederen Adobe aggressivt styrke sitt flaggskipprodukt, Photoshop. Selskapet rullet nylig ut en trio med kraftige, ildfluktdrevne funksjoner, inkludert ‘harmoniserer’ for automatisk å matche fargen og belysningen av tilførte objekter, ‘generativ oppskalere’ for å forbedre oppløsningen, og et forbedret ‘fjerne verktøy’.
Adobe’s strategi er å forsvare sitt profesjonelle torv ved å legge inn en ai dypt til å etablere arbeidsflowsflows. Deepa Subramaniam, en Adobe VP, sa at denne tilnærmingen er drevet av tilbakemeldinger fra brukerne, og forklarer at”disse nye innovasjonene kommer fra våre pågående samtaler med det kreative samfunnet, hvor vi hører hvordan vi kan utvikle verktøy i Photoshop for å fjerne barrierer.”Googles tilnærming, derimot, retter seg mot et bredere forbrukerpublikum direkte innenfor sin chat-app, og sikter mot masseadopsjon.
Konkurransedyktig press intensiveres over hele linjen, og tvinger selv de største spillerne til å tilpasse seg. Meta svingte nylig sin strategi etter interne tilbakeslag av utvikling, og valgte å lisensiere teknologi fra Midjourney, en leder innen stilisert AI-bilder. Metas AI-sjef, Alexandr Wang, innrammet flyttingen som en nødvendighet, og sier at selskapet må ta en”alt-av-over-tilnærming”for å levere de beste produktene.
Denne trenden fremhever et marked som både konsoliderer seg blant giganter og raskt spesialiserer seg. Nisjespillere dukker opp for å løse spesifikke, vedvarende problemer. For example, Black Forest Labs’ FLUX.1 Krea model is engineered to combat the generic “AI look”and achieve more authentic photorealism. Tilsvarende utmerker Alibabas open source Qwen-Image-modellen seg med å gjengi leselig tekst, et stort hinder for de fleste generative systemer.
Balansering av kreativ kraft med nye sikkerhetstiltak
Googles trykk kommer etter tidligere snubler i AI-bildegenerering. Selskapet sto overfor betydelig tilbakeslag da Gemini i de første dagene produserte historisk unøyaktige bilder av mennesker, og tvang det til midlertidig å stanse funksjonen. Denne nye lanseringen er ledsaget av mer robuste sikkerhetsprotokoller.
For å adressere den økende trusselen om dypfakes og feilinformasjon, vannmerker Google alt generert innhold. Bilder vil inneholde både en synlig markør og et usynlig, kryptografisk synthid vannmerke for å tydelig vise at de er AI-generert.
Dette står i kontrast til de juridiske og etiske slagene som omfatter konkurrenter. Midjourney står for tiden overfor et høyprofilert søksmål fra Copyright fra Disney og Universal over sine treningsdata. Disneys generaladvokat, Horacio Gutierrez, har tatt en hard linje, og sier:”Piratkopiering er piratkopiering. Og det at det gjøres av et A.I.-selskap gjør det ikke noe mindre krenkende.”
Bransjen står også overfor skepsis til påliteligheten til AI-benchmarks. Som AI-strategen Nate Jones bemerket,”I det øyeblikket vi setter toppliste-dominans som mål, risikerer vi å lage modeller som utmerker seg i trivielle øvelser og flyndre når vi står overfor virkeligheten.”
Ved å legge inn kraftig, brukervennlig redigeringsverktøy i flaggskipet AI-produktet, satser Google at tilgjengeligheten og kreativ kontroll kan vinne over Main Main-brukeren. Flyttingen plasserer Gemini ikke bare som en chatbot, men som en omfattende kreativ motor i det raskt utviklende generative AI-landskapet.