Google wprowadza we wtorek nowy model edycji obrazu dla swojej aplikacji Gemini. Opracowana przez DeepMind, aktualizacja wprowadza zaawansowane funkcje zaprojektowane w celu zapewnienia użytkownikom bardziej kreatywnej kontroli i konsekwencji, bezpośrednio rzucających wyzwanie rywalom, takim jak Openai i Adobe.

Uaktualnienie ma na celu rozwiązanie jednej z najbardziej uporczywych wad sztucznej inteligencji: utrzymanie podobieństwa osoby w edycjach. Użytkownicy mogą teraz zmieniać stroje lub tła bez zniekształcania twarzy, mieszać zdjęcia w jedną scenę lub wprowadzać iteracyjne zmiany w przepływie konwersacyjnym.

Ten ruch sygnalizuje zamiar Google zamykania luki użytkowników z konkurentami. Nowy model jest teraz zintegrowany z aplikacją GEMINI dla wszystkich użytkowników i jest również dostępny dla programistów za pośrednictwem API Gemini, Google AI Studio i Vertex AI, od „Nano-Banana” do nowego punktu odniesienia w edycji AI

Debiut publiczny modelu był poprzedzony ukradkowym i niezwykle udanym podglądem. Pojawił się anonimowo na platformie ewaluacyjnej Crowdsourced Lmarena jako „Nano-Banana”, szybko generując Buzz w społeczności AI, zanim stał się światem

jego podstawową siłą jest „konsekwencja postaci”, “, podstawa, która zachowuje tożsamość osoby lub zwierzaka przez Major Transformations. Dotyczy to wspólnego punktu awarii wielu modeli AI, w których edycja tła lub stroju może subtelnie zniekształcać twarz pacjenta. Dzięki tej aktualizacji użytkownicy mogą umieszczać tematy w zupełnie nowych scenariuszach-próbując różnych strojów, wyobrażając sobie nowe zawody, a nawet zobaczyć, jak się pojawią w kolejnej dekadzie-podczas gdy .

Poza utrzymaniem podobieństwa, model wprowadza pakiet zaawansowanych opcji kreatywnych. Użytkownicy mogą teraz łączyć wiele zdjęć, aby stworzyć zupełnie nową scenę złożoną. Na przykład można zrobić zdjęcie siebie i innego psa, aby wygenerować ich idealny portret na boisku do koszykówki. Kolejna potężna funkcja pozwala na „miksowanie projektowe”, w którym styl jednego obrazu można zastosować do obiektu w innym, takim jak przenoszenie koloru i tekstury płatków kwiatowych na parę deszczów.

Aktualizacja umożliwia również edycję wielu odwracania, proces konwersacji, w którym użytkownicy mogą budować obraz z sekwencyjnymi podpowiedziami. Można zacząć od pustego pokoju, a następnie poprosić Gemini o pomalowanie ścian, dodanie półki, umieszczenie sofy i wreszcie położenie dywanu, a model zachowuje integralność sceny na każdym etapie. Nicole Brichtova, prowadząca produkt w Google Deepmind, wyjaśniła, że ​​celem było zwiększenie kreatywnej kontroli, zauważając: „Naprawdę popychamy jakość wizualną do przodu, a także zdolność modelu do przestrzegania instrukcji.”

Nowy lider w konkurencji AI Image

to wydanie to wyraźna i obliczona reakcja na rynek techniczny, w którym GiANts jest Racem, który jest Race Race. Kreatywna sztuczna inteligencja. Presja zintensyfikowała znacząco po zintegrowaniu openai generatora obrazu GPT-4O bezpośrednio do Chatgpt w marcu. Ten ruch spowodował ogromny wzrost zaangażowania użytkowników, napędzany wirusowymi memami, które pokazały moc i dostępność modelu, ustanawiając nowy punkt odniesienia dla zintegrowanych narzędzi AI.

Tymczasem zasiedziały lider kreatywnego oprogramowania Adobe agresywnie wzmacnia swój flagowy produkt, Photoshop. Firma niedawno wprowadziła trio potężnych, napędzanych przez strażactwo funkcji, w tym „harmonizację” w celu automatycznego dopasowania koloru i oświetlenia dodanych obiektów, „generatywnego ekskluzywnego” w celu zwiększenia rozdzielczości, a ulepszone „narzędzie usuń”. Strategia Adobe’a jest obronę swojego profesjonalnego Turfu przez osadzanie się w zakresie ustalonych przepływów pracy. Deepa Subramaniam, an Adobe VP, said this approach is driven by user feedback, explaining that “these new innovations come from our ongoing conversations with the creative community, where we hear how we can evolve tools in Photoshop to remove barriers.”Natomiast podejście Google ma na celu szerszą publiczność konsumencką bezpośrednio w aplikacji czatu, mającą na celu masowe przyjęcie.

Presja konkurencyjna nasila się na całym świecie, zmuszając nawet największych graczy do adaptacji. Meta niedawno obróciła swoją strategię po wewnętrznych niepowodzeniach rozwoju, wybierając technologię licencyjną z Midjourney, lidera stylizowanych obrazów AI. Szef AI Meta, Alexandr Wang, sformułował ten ruch jako konieczność, stwierdzając, że firma musi podjąć „całkowitą podejście”, aby dostarczyć najlepsze produkty.

Ten trend podkreśla rynek, który zarówno konsolidujący wśród gigantów, jak i szybko specjalizujący się. Niszowe gracze pojawiają się w celu rozwiązania konkretnych, uporczywych problemów. Na przykład strumień Black Forest Labs.1 Model Krea jest zaprojektowany w celu zwalczania ogólnego „AI Look” i osiągnięcia bardziej autentycznego fotorealizmu. Podobnie model QWen-Image Alibaba wyróżnia się w renderowaniu czytelnego tekstu, główna przeszkoda dla większości systemów generatywnych.

Bilansowanie mocy kreatywnej z nowymi zabezpieczeniami

Push Google pojawia się po poprzednich wrażeniach w generowaniu obrazu AI. Firma spotkała się z znaczącym luzem, gdy Bliźnięta we wczesnych latach stworzyło historycznie niedokładne obrazy ludzi, zmuszając ją do tymczasowego zawieszenia tej funkcji. Tym nowym uruchomieniu towarzyszy bardziej solidne protokoły bezpieczeństwa.

Aby rozwiązać rosnące zagrożenie głębokim szafkami i dezinformacją, Google znakuje się wodą wszystkie generowane treści. Obrazy będą obejmować zarówno widoczny marker, jak i niewidoczny, kryptograficzny syntezator wodny, aby wyraźnie pokazać, że są wygenerowane AI.

Kontrastuje to z prawnymi i etycznymi bitwami uwikłaniowymi konkurentami. Midjourney stoi obecnie w obliczu głośnego pozwu prawem autorskiego od Disneya i Universal o swoje dane szkoleniowe. Główny doradca Disneya, Horacio Gutierrez, wziął twardą linię, stwierdzając: „Piractwo to piractwo. A fakt, że jest to zrobione przez firmę A.I. nie sprawia, że ​​jest to mniej naruszenia.”

Branża stoi również w obliczu sceptycyzmu w sprawie niezawodności AI TENTAMMARKI. Jak zauważył strateg AI, Nate Jones: „W momencie, gdy ustaliliśmy dominację na tablicy liderów jako cel, ryzykujemy tworzenie modeli, które osiągają najlepsze ćwiczenia i flądra, gdy stoi w obliczu rzeczywistości.”

poprzez osadzanie potężnych, przyjaznych użytkownikom narzędzi do edycji w swoim flagowym produkcie AI, Google stawia tę dostępność i kreatywną kontrolę. Przeniesienie pozycjonuje Gemini nie tylko jako chatbot, ale jako kompleksowy silnik kreatywny w szybko rozwijającym się generatywnym krajobrazie AI.