A
A Google kedden egy hatékony új képszerkesztési modellt készít a Gemini alkalmazásához. A DeepMind által kifejlesztett frissítés fejlett funkciókat vezet be, amelyek célja a felhasználók kreatív irányításának és következetességének biztosítása, közvetlenül kihívva a riválisokat, mint például az Openai és az Adobe. A felhasználók most megváltoztathatják a ruhákat vagy a háttereket anélkül, hogy az arcokat torzítanák, a fényképeket egyetlen jelenetbe keverhetik, vagy iteratív változásokat hajthatnak végre a beszélgetési folyamatban. Az új modell most integrálódik az Ikrek alkalmazásába minden felhasználó számára, és a fejlesztők számára elérhető a Gemini API, a Google AI Studio és a Vertex AI segítségével, . szélesség=”1032″magasság=”505″src=”adatok: image/svg+xml; nitro-üres-id=mtyznzoxmja1-1; base64, phn2zyb2awv3qm94psiwidagmtazmia1md Uiihdpzhropsixmdmyiibozwlnahq9ijuwnsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>
a „nano-banana”-tól egy új referenciaértékig az AI szerkesztésben
A modell nyilvános debütálását egy lopakodó és vadul sikeres előnézet előzte meg. Anonim módon tűnt fel az Lmarena tömegforrás-értékelési platformon, mint „Nano-Banana”, és gyorsan zümmögést generál az AI közösségben, mielőtt a világ legjobban értékelt képszerkesztési modelljévé vált. David Sharon, a Gemini Apps vezetője, kiemelte lelkes fogadását, kijelentve: „Az emberek már a korai előnézetek során a banánokat továbbítják-ez a világon a legjobban értékelt képszerkesztési modell.”
Alapvető ereje a „karakterkonzisztencia”, egy úttörő tulajdonság, amely megóvja az identitást vagy a Major Transformációk azonosságát. Ez számos AI modellnél egy általános hibapontot érint, ahol a háttér vagy a ruházat szerkesztése finoman torzíthatja az alany arcát. With this update, users can place subjects in entirely new scenarios—trying out different outfits, imagining new professions, or even seeing how they would appear in another decade—while ensuring Még mindig úgy néznek ki, mint maguk .
A hasonlóság fenntartása mellett a modell bevezeti a fejlett kreatív lehetőségek sorozatát. A felhasználók most már több fényképet keverhetnek egy vadonatúj kompozit jelenet létrehozásához. Például, fényképet készíthetnek magukról és egy kutyájukról, hogy tökéletes portrét készítsenek rájuk egy kosárlabdapályán. Egy másik erőteljes szolgáltatás lehetővé teszi a „tervezés keverését”, ahol az egyik kép stílusa alkalmazható egy objektumra a másikban, például a virágszirmok színének és textúrájának átvitele egy pár esős zára. Egy üres helyiséggel kezdhetjük, majd kérje az Ikrét, hogy festse fel a falakat, adjon hozzá egy könyvespolcot, tegyen egy kanapét, és végül lefektessen egy szőnyeget, a modell megőrizve a jelenet integritását minden lépésnél. Nicole Brichtova, a Google Deepmind termékvezetéke elmagyarázta, hogy a kreatív irányítás javítása, megjegyezve: „Tényleg előmozdítjuk a vizuális minőséget, valamint a modell képességét az utasítások követésére.”Kreatív AI. A nyomás szignifikánsan fokozódott, miután az OpenAi márciusban integrálta a GPT-4O képgenerátort közvetlenül a CHATGPT-be. Ez a lépés hatalmas növekedést váltott ki a felhasználói elkötelezettségben, amelyet a vírusos mémek tápláltak, amelyek bemutatják a modell erejét és akadálymentességét, és új referenciaértéket állítottak be az integrált AI eszközökhöz. A társaság nemrégiben hármas, nagyszabású, szentjánoskocsival működő funkciók hármasát, köztük a „Harmonize”-et, hogy automatikusan megfeleljen a hozzáadott objektumok színének és megvilágításának, a „Generative Upscale” a felbontás fokozása érdekében, és egy továbbfejlesztett „eltávolító eszköz”. Deepa Subramaniam, az Adobe VP, azt mondta, hogy ezt a megközelítést a felhasználói visszajelzések vezetik, elmagyarázva, hogy „ezek az új innovációk a kreatív közösséggel folytatott folyamatban lévő beszélgetésekből származnak, ahol halljuk, hogyan fejleszthetjük az eszközöket a Photoshop-ban az akadályok eltávolítása érdekében.” A Google megközelítése ezzel szemben egy szélesebb fogyasztói közönséget céloz meg közvetlenül a csevegőalkalmazásán belül, a tömeges elfogadás céljából. A Meta nemrégiben elfordította stratégiáját a belső fejlesztési visszaesések után, és úgy döntött, hogy a Midjourney, a stilizált AI-képek vezetője licenc technológiát választott. A Meta AI vezetője, Alexandr Wang szükségszerűségként fogalmazta meg a lépést, kijelentve, hogy a társaságnak „mindenképpen megközelítést” kell alkalmaznia a legjobb termékek szállításához. A niche-játékosok kialakulnak a konkrét, tartós problémák megoldására. Például a Black Forest Labs Flux.1 Krea modelljét az általános „AI megjelenés” leküzdésére és a hitelesebb fotorealizmus elérésére tervezték. Hasonlóképpen, az Alibaba nyílt forráskódú Qwen-képmodellje kiemelkedik a olvasható szöveg megjelenítésében, amely a leginkább generáló rendszerek számára. A társaság jelentős visszaeséssel szembesült, amikor az Ikrek korai napjaiban történelmileg pontatlan képeket készítettek az emberekről, és arra kényszerítették, hogy ideiglenesen felfüggessze a funkciót. Ezt az új indítást robusztusabb biztonsági protokollok kíséri. A képek tartalmaznak egy látható markeret és egy láthatatlan, kriptográfiai szintetikus vízjelet, amely egyértelműen megmutatja, hogy AI-generáltak. A Midjourney jelenleg a Disney és az Universal képzési adatainak kiemelkedő szerzői jogi peres eljárásával szembesül. A Disney főtanácsosa, Horacio Gutierrez, kemény vonalat vett fel, kijelentve: „A kalózkodás kalózkodás. És az a tény, hogy egy A.I. társaság készítette, nem teszi kevésbé sértővé.”Amint Nate Jones, az AI stratégia megjegyezte: „Abban a pillanatban, amikor a ranglistán dominanciát a célként állítjuk be, kockáztatunk olyan modellek létrehozását, amelyek kitűnőek a triviális gyakorlatokban és lepattannak, amikor a valósággal szembesülünk.”
Azáltal, hogy beágyazza a hatalmas, felhasználóbarát szerkesztési eszközöket az AI-termékbe, a Google fogadja, hogy a hozzáférés és a kreatív vezérlés nyerhet a mainstream felhasználók felett. A mozgás nemcsak chatbotként, hanem átfogó kreatív motorként helyezkedik el a gyorsan fejlődő generatív AI tájban.