Google julkaisee tiistaina tehokkaan uuden kuvan muokkausmallin Gemini-sovellukselle. DeepMindin kehittämä päivitys esittelee edistyneitä ominaisuuksia, jotka on suunniteltu antamaan käyttäjille luovampaa hallintaa ja johdonmukaisuutta, haastavat suoraan kilpailijoita, kuten Openai ja Adobe.
Päivityksen tavoitteena on ratkaista yksi AI: n jatkuvimmista puutteista: ylläpitää ihmisen kaltaista muokkausta. Käyttäjät voivat nyt muuttaa asusteita tai taustoja vääristämättä kasvoja, sekoittaa valokuvia yhdeksi kohtaukseksi tai tehdä iteratiivisia muutoksia keskusteluvirtaan.
Tämä siirto merkitsee Googlen aikomusta sulkea käyttäjän aukko kilpailijoiden kanssa. Uusi malli on nyt integroitu kaikkien käyttäjien Gemini-sovellukseen ja se on myös kehittäjien saatavana Gemini API: n, Google AI-studion ja Vertex AI: n kautta virallisen ilmoituksen mukaan leveys=”1032″korkeus=”505″src=”data: kuva/svg+xml; nitro-namty-id=mtyzodoxmja1-1; base64, phn2zyb2awv3qm94psiwidagmtazmia1md UIIHDPZHROPSIXMDMYIIBOZWLNAHQ9IJUWNSIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>
nano-bananasta uuteen vertailuarvoon AI-editoinnissa
Mallin julkista debyyttiä edelsi varkain ja villin onnistunut esikatselu. Se ilmestyi nimettömästi joukkotutkimusalusta Lmarena”nano-bananaan”, joka syntyi nopeasti AI-yhteisössä, ennen kuin hänestä tuli maailman huipputason kuvan muokkausmalli . Gemini-sovellusten johto David Sharon korosti innostunutta vastaanottoa ja totesi: “Ihmiset ovat menneet banaaneihin jo varhaisissa esikatselussa-se on maailman huippuluokan kuvan muokkausmalli.”Tämä käsittelee monien AI-mallejen yhteistä epäonnistumispistettä, jossa taustan tai asun muokkaaminen voi hienovaraisesti vääristää kohteen kasvoja. Tällä päivityksellä käyttäjät voivat sijoittaa aiheita täysin uusiin skenaarioihin-yrittää erilaisia asuja, kuvitella uusia ammatteja tai jopa nähdä, kuinka ne ilmestyisivät toisella vuosikymmenellä-kun taas .
Laskeutumisen lisäksi malli esittelee sarjan edistyneitä luovia vaihtoehtoja. Käyttäjät voivat nyt sekoittaa useita valokuvia upouuden komposiittikohtauksen luomiseksi. Esimerkiksi voitaisiin ottaa valokuva itsestään ja toisesta koirastaan luodakseen täydellisen muotokuvan heistä yhdessä koripallokentällä. Toinen tehokas ominaisuus mahdollistaa “suunnittelun sekoittamisen”, jossa yhden kuvan tyyliä voidaan levittää toiseen objektiin, kuten kukka terälehtien värin ja tekstuurin siirtäminen sadekappaleen pariin.
Päivitys mahdollistaa myös monen käännöksen muokkaamisen, keskusteluprosessin, jossa käyttäjät voivat rakentaa kuvan peräkkäisillä kehoteilla. Voidaan aloittaa tyhjästä huoneesta, sitten pyytää Geminiä maalaamaan seinät, lisäämään kirjahyllyn, asettamaan sohvan ja lopulta asettamaan maton, kun malli säilyttää kohtauksen eheyden jokaisessa vaiheessa. Google Deepmindin tuotejohto Nicole Brichtova selitti, että tavoitteena oli parantaa luovaa hallintaa, huomauttaen: “Ajoamme todella visuaalista laatua eteenpäin sekä mallin kykyä noudattaa ohjeita.”
Uusi johtaja AI-kuvakilpailussa
Tämä julkaisu on selkeä ja laskenut vastauksen FIERCY-kilpailuun. Ai. Paine vahvistui merkittävästi sen jälkeen, kun Openai integrotoi GPT-4O-kuvan generaattorin suoraan ChatgPT: hen maaliskuussa. Tämä muutto ajoi käyttäjän sitoutumisen massiivista nousua, jota polttaa virusmeemit, jotka esittelivät mallin voimaa ja saavutettavuutta, asettamalla uuden vertailukohdan integroiduille AI-työkaluille.
Sillä välin vakiintunut luova ohjelmistojohtaja Adobe on aggressiivisesti vahvistanut lippulaivatuotetta Photoshop. Yhtiö käytti äskettäin kolmen voimakkaita, Firefly-moottorien ominaisuuksia, mukaan lukien’harmonisoitu’, jotta voidaan vastata automaattisesti lisättyjen esineiden väriä ja valaistusta,’generatiivista hyväpalkkaista “ratkaisun parantamiseksi, ja parannettu’poista työkalu’. Deepa Subramaniam, Adobe VP, sanoi, että tätä lähestymistapaa ohjaa käyttäjän palaute selittäen, että”nämä uudet innovaatiot tulevat meneillään olevista keskusteluistamme luovan yhteisön kanssa, jossa kuulemme, kuinka voimme kehittää Photoshopin työkaluja esteiden poistamiseksi”. Googlen lähestymistapa sitä vastoin kohdistuu laajempaan kuluttajayleisöön suoraan chat-sovelluksessaan, jonka tavoitteena on massan omaksuminen.
Kilpailupaine vahvistuu kaikkialla, pakottaen jopa suurimmat pelaajat mukautumaan. Meta käänsi äskettäin strategiansa sisäisen kehityksen takaiskujen jälkeen ja valitsi lisenssitekniikan Midjourney-tyyliteltyjen AI-kuvien johtajan. Meta-AI: n päällikkö Alexandr Wang kehitti muutoksen välttämättömyydeksi, jossa todetaan, että yrityksen on suoritettava”yleinen lähestymistapa”parhaiden tuotteiden toimittamiseksi.
Tämä trendi korostaa markkinoita, jotka ovat sekä jättiläisten keskuudessa että nopeasti erikoistuneet. Kapeat pelaajat ovat nousseet ratkaisemaan erityisiä, pysyviä ongelmia. Esimerkiksi Black Forest Labs’Flux.1 KREA-malli on suunniteltu torjumaan yleistä”AI-ilmettä”ja saavuttaa aitoja fotorealismia. Samoin Alibaban avoimen lähdekoodin Qwen-Image-malli on erinomainen luettavassa tekstissä, mikä on suurin este useimmille generatiivisille järjestelmille.
luovan voiman tasapainottaminen uusilla suojatoimenpiteillä
Googlen työntö tulee AI-kuvan sukupolven aikaisempien kompasten jälkeen. Yhtiö kohtasi huomattavan takaiskun, kun Gemini syntyi varhaisina aikoissaan historiallisesti epätarkkoja kuvia ihmisistä, pakottaen sen väliaikaisesti keskeyttämään ominaisuuden. Tähän uuteen lanseeraukseen liittyy voimakkaampia turvallisuusprotokollia. Kuviin sisältyy sekä näkyvä merkki että näkymättömän, salauksen synteettisen vesileiman, jotta ne ovat selvästi AI-generoituja.
Tämä on ristiriidassa kilpailijoiden soveltavien laillisten ja eettisten taistelujen kanssa. Midjourney on tällä hetkellä Disneyn ja Universalin korkean profiilin tekijänoikeuksien oikeusjuttu koulutustietojensa suhteen. Disneyn yleinen neuvonantaja Horacio Gutierrez on ottanut kovan linjan, jossa todetaan: “Piratismi on piratismia. Ja se, että sen on tehnyt A.I. Kuten AI-strategia Nate Jones totesi: “Kun asetamme tulostaulun hallitsevuuden tavoitteena, riski luoda malleja, jotka ovat huipulla triviaalisissa harjoituksissa ja kallistumassa, kun kohtaat todellisuutta.”
upottamalla voimakkaita, käyttäjäystävällisiä muokkaustyökaluja lippulaiva-tuotteisiinsa, Google panostaa, että saavutettavuus ja luova valvonta voi voittaa Mainstream-käyttäjiä. Muutto sijoittaa Geminit vain chatbotiksi, vaan myös kattavana luovana moottorina nopeasti kehittyvässä generatiivisessa AI-maisemassa.