Google oficjalnie wypuściło Gemini 2.5 Flash Image, potężny model sztucznej inteligencji, który w sierpniu stał się wirusowy pod nazwą „Nano Banana”, dzięki czemu jest ogólnie dostępny dla programistów i przedsiębiorstw na całym świecie.
Ogłoszone 2 października to gotowe do produkcji narzędzie jest teraz dostępne za pośrednictwem Gemini API, Google AI Studio i Vertex AI.
To główne wydanie wprowadza nowe możliwości kreatywne, w tym obsługę dla 10 współczynników proporcji i zwiększonej spójności znaków w celu uzyskania bardziej realistycznych edycji.
To posunięcie wzmacnia wyzwanie Google rzucone konkurentom, takim jak OpenAI i Adobe, mając na celu najnowocześniejsze generowanie obrazów w rękach większej liczby twórców.
Nowe sterowanie kreatywne i sukces wczesnego wdrożenia
Modelka po raz pierwszy pojawiła się anonimowo na platformie ewaluacyjnej LMArena pozyskiwanej z crowdsourcingu jako „nano-banan”, szybko stając się najwyżej ocenianym na świecie modelem do edycji obrazów.
Strategia ta wywołała znaczny organiczny szum, zanim jej oficjalny branding został ujawniono.
Wersja ogólnodostępna z 2 października zawiera także znaczące ulepszenia ukierunkowane na produkcję.
Kluczowym ulepszeniem jest obsługa 10 różnych współczynników proporcji, od krajobrazu kinowego po pionowe formaty mediów społecznościowych. Umożliwia to twórcom dostosowywanie treści do konkretnych platform.
Aktualizacja udoskonala także podstawową zaletę modelu: „spójność postaci”. Ta funkcja, która zachowuje podobieństwo podmiotu podczas większych zmian, rozwiązuje problem typowego punktu awarii wielu modeli sztucznej inteligencji.
Nicole Brichtova, liderka produktu w Google DeepMind, zauważyła: „Oddajemy w ręce zwykłych twórców funkcje, które wcześniej wymagały specjalistycznych narzędzi, i inspirujące było obserwowanie eksplozji kreatywności, która to wywołała”.
Natywne możliwości multimodalne modelu pozwalają umożliwia jednoczesne przetwarzanie tekstu i obrazów. Oznacza to, że może zrozumieć istniejący obraz i włączyć go do swojego procesu twórczego, a nie tylko generować na podstawie podpowiedzi tekstowej.
Umożliwia to bardziej precyzyjne i spójne edycje podczas rozmowy.
Wcześni użytkownicy już integrują te funkcje. Startup Cartwheel zajmujący się sztuczną inteligencją uznał, że model jest wyjątkowo zdolny do obsługi złożonych póz z dowolnego kąta aparatu.
Współzałożyciel Andrew Carr pochwalił Google, mówiąc: „Inne modele nie były w stanie renderować postaci z dowolnego kąta kamery ani zachować wierności pozie bez poświęcania „wiedzy o świecie”. Nowy model Gemini 2.5 Flash Image był pierwszym, który mógł zapewnić jedno i drugie.”
Google ustaliło cenę na 0,039 USD za obraz i 30 USD za milion tokenów wyjściowych, co jest konkurencyjną stawką mającą na celu zachęcenie przedsiębiorstw do przyjęcia platformy Vertex AI.
Wyliczony ruch w wyścigu zatłoczonego obrazu AI
Wprowadzenie jest wykalkulowaną odpowiedzią na niezwykle konkurencyjny rynek. Presja nasiliła się po tym, jak OpenAI zintegrowało generator obrazów GPT-4o bezpośrednio z ChatGPT, co spowodowało ogromny wzrost zaangażowania użytkowników.
Strategia Google jest skierowana do szerokiego grona odbiorców bezpośrednio w aplikacji do czatu, mając na celu masowe przyjęcie.
W ostatnim czasie powszechnie wzrasta presja konkurencyjna. Firma ByteDance wypuściła na rynek model Seedream 4.0 jako bezpośredni konkurent „Nano Banana”.
Meta zmieniła również swoją strategię generowania obrazów AI, decydując się na licencjonowanie technologii firmy Midjourney po wewnętrznych niepowodzeniach.
Na rynku pojawiają się wyspecjalizowani gracze, tacy jak Black Forest Labs skupiające się na fotorealizmie i model Alibaba wyróżniający się renderowaniem tekstu.
Równoważenie mocy twórczej z nowymi zabezpieczeniami
Atak Google następuje po wcześniejszych potknięciach w generowaniu obrazów AI.
Firma spotkała się z ostrymi reakcjami, gdy wczesna wersja Gemini generowała historycznie niedokładne obrazy ludzi, co wymusiło tymczasowe zawieszenie tej funkcji. Tej nowej premierze towarzyszą solidniejsze protokoły bezpieczeństwa.
Aby zaradzić rosnącemu zagrożeniu związanym z deepfakes, Google znakuje całą wygenerowaną treść znakiem wodnym.
Obrazy będą zawierać zarówno widoczny znacznik, jak i niewidoczny, kryptograficzny znak wodny SynthID, aby wyraźnie pokazać, że zostały wygenerowane przez sztuczną inteligencję. Kontrastuje to z sporami prawnymi toczącymi konkurentów takich jak Midjourney.
Midjourney stoi obecnie w obliczu głośnego pozwu dotyczącego praw autorskich złożonego przez Disneya i Universal w związku z jego danymi szkoleniowymi.
Podkreśla to złożony krajobraz prawny i etyczny, w jakim muszą się poruszać wszystkie firmy zajmujące się sztuczną inteligencją, co sprawia, że proaktywne znak wodny Google jest ważną decyzją strategiczną.
Dzięki osadzeniu przyjaznego dla użytkownika narzędzi do edycji w swoim flagowym produkcie AI, Google pozycjonuje Gemini nie tylko jako chatbota, ale w coraz większym stopniu jako wszechstronny silnik kreatywny, podobny do OpenAI, który właśnie wprowadził na rynek swój model wideo Sora 2 AI.
To posunięcie wyraźnie zakłada, że dostępność i zaufanie mogą pozyskać głównych użytkowników w szybko rozwijającej się dziedzinie generatywnej sztucznej inteligencji.