Black Forest Labs (BFL) wypuściło we wtorek ogromną rodzinę modeli FLUX.2. Integrując model języka wizyjnego (VLM) firmy Mistral, startup ma na celu osadzenie obrazów w logice świata rzeczywistego, a nie tylko prawdopodobieństwie pikseli.

Aby zapobiec zmiażdżeniu sprzętu konsumenckiego przez architekturę zawierającą 32 miliardy parametrów, BFL nawiązał współpracę z firmą NVIDIA w celu optymalizacji modeli dla jednostek przetwarzania grafiki GeForce RTX (GPU). Nowa technika kwantyzacji zmniejsza zużycie pamięci VRAM (Video Random Access Memory) o 40%, umożliwiając lokalne działanie ogromnego systemu.

Ta premiera, która pojawi się zaledwie kilka dni po premierze Google Gemini 3 Pro Image, stanowi wyzwanie dla przejścia w stronę zamkniętych ekosystemów. BFL udostępnia deweloperom otwarte wagi, zakładając, że innowacje społecznościowe wyprzedzą korporacyjne ogrody.

Zmiana w architekturze: wzrost rozumowania

Przełamując standard branżowy polegający wyłącznie na prawdopodobieństwie pikseli, firma Black Forest Labs (BFL) zasadniczo przeprojektowała swój flagowy model. FLUX.2 przyjmuje konstrukcję hybrydową, która łączy wyprostowany transformator przepływowy z modelem języka wizyjnego (VLM), co ma na celu uziemienie wyjść generatywnych w logicznej spójności.

Dzięki integracji „Mistral-3″, parametr o wartości 24 miliardów VLM system zyskuje warstwę „wiedzy o świecie”, której brakuje tradycyjnym modelom dyfuzyjnym.

Integracja VLM pozwala modelowi zrozumieć zależności przestrzenne i właściwości fizyczne przed wyrenderowaniem pikseli, bezpośrednio rozwiązując problem „halucynacji”, w którym sztuczna inteligencja generuje fizycznie niemożliwe obiekty lub oświetlenie.

Opisując praktyczne intencje stojące za tą zmianą, firma stwierdziła: „FLUX.2 jest przeznaczony do kreatywnych przepływów pracy w rzeczywistym świecie, a nie tylko demonstracji lub imprez triki.”

„FLUX.2 zapewnia teraz obsługę wielu odniesień, z możliwością łączenia do 10 obrazów w nowatorski obraz wyjściowy, rozdzielczość wyjściową do 4 MP, znacznie lepszą przyczepność i wiedzę o świecie oraz znacznie ulepszoną typografię.”

Już jest FLUX.2 – nasz najpotężniejszy jak dotąd model do generowania i edycji obrazów.

Wieloodniesienia. 4MP. Gotowy do produkcji. Otwarte ciężary.

W stronę nowego. pic.twitter.com/wynj1vfYTV

— Black Forest Labs (@bfl_ml) 25 listopada 2025

Takie zmiany w architekturze umożliwiają korzystanie z funkcji, na których wcześniej nie można było polegać. Maksymalna rozdzielczość wyjściowa została zwiększona do 4 megapikseli (około 2048 × 2048), co jest specyfikacją ukierunkowaną na profesjonalne wydruki i wyświetlanie w wysokiej rozdzielczości, a nie tylko na korzystanie z mediów społecznościowych.

Nowa funkcja „Kontrola wielu odniesień” umożliwia użytkownikom jednoczesne wprowadzenie do 10 różnych obrazów referencyjnych. Zaprojektowana do tworzenia komercyjnych scenorysów, funkcja utrzymuje ścisłą spójność stylu i charakteru na wielu pokoleniach, co jest kluczowym wymogiem przy tworzeniu zasobów kampanii.

FLUX.2 zawiera nowy autoenkoder wariacyjny (VAE), zaprojektowany w celu zrównoważenia możliwości uczenia się, jakości i kompresji, dodatkowo optymalizując model pod kątem różnych scenariuszy wdrażania.

Zmodyfikowano także możliwości typografii. Poprawiając poprzednie słabości, system niezawodnie renderuje złożone ciągi tekstowe i układy, eliminując notoryczną wadę modeli poprzedniej generacji, która często powodowała zniekształcone lub bezsensowne litery.

Wąskie gardło sprzętowe i poprawka NVIDIA

Usunięcie ograniczeń sprzętowych właściwych dla tak złożonego systemu wymagało specjalnego wysiłku inżynierów. Ważący znaczne 32 miliardy parametrów pełny model wymaga 90 GB pamięci VRAM do załadowania w stanie nieskwantowanym.

Takie wymagania stawiają model daleko poza możliwościami nawet najdroższego sprzętu konsumenckiego, takiego jak 24-gigabajtowa karta NVIDIA GeForce RTX 4090. Lokalne uruchamianie modelu zazwyczaj wymagałoby klastrów serwerów klasy korporacyjnej, ograniczając jego dostępność do ułamka potencjalnej bazy użytkowników.

Aby rozwiązać ten problem, BFL nawiązało bezpośrednią współpracę z firmą NVIDIA w celu wdrożenia kwantyzacji FP8 (8-bitowa liczba zmiennoprzecinkowa). Kwantyzacja zmniejsza wymagania VRAM o 40% przy zachowaniu „porównywalnej jakości”, dzięki czemu model jest w zasięgu stacji roboczych entuzjastów high-endu. NVIDIA pisze:

„Nowe modele FLUX.2 są imponujące, ale także dość wymagające. Obsługują zdumiewający model o 32 miliardach parametrów, wymagający do całkowitego załadowania 90 GB pamięci VRAM.”

„Aby zwiększyć dostępność modelu FLUX.2, NVIDIA i Black Forest Labs współpracowały przy kwantyzacji modelu do 8PR – zmniejszając wymagania VRAM o 40% przy porównywalnej jakości.”

Dla użytkowników, których wciąż brakuje. wystarczającą ilość pamięci VRAM, współpraca z ComfyUI wprowadza nową funkcję „streamingu wagi”. Przesyłanie masy umożliwia dynamiczne przenoszenie części modelu do wolniejszej systemowej pamięci RAM, zamieniając prędkość wnioskowania na możliwość uruchomienia modelu na ograniczonym sprzęcie.

Planowana jest także dostępność w przyszłości. Model „Kleina”, określany jako wydestylowana pod względem rozmiaru wersja architektury, jest w fazie opracowywania z myślą o sprzęcie o niższych specyfikacjach, choć konkretna data premiery pozostaje niepotwierdzona.

Ceny interfejsu API są ustalane agresywnie i szacowane na 0,01–0,04 USD za sztukę obraz. Podcinając konkurentów, struktura rzuca wyzwanie dylematowi „kupuj czy buduj” dla dużych firm technologicznych, które muszą zdecydować, czy opracować własne modele, czy licencjonować doskonałą technologię zewnętrzną.

Otwarte wagi kontra mury ogrodów

Podczas gdy konkurenci blokują swoje modele za ściśle kontrolowanymi interfejsami API, BFL utrzymuje wielopoziomową strategię wydawniczą obejmującą otwarty dostęp. Programista FLUX.2 oferuje otwarte wagi do użytku niekomercyjnego i badań, umożliwiając społeczności sprawdzanie i rozwijanie podstawowej technologii.

Użytkownicy komercyjni są kierowani do poziomów [pro] i [flex] obsługujących wyłącznie API, które oferują zarządzaną infrastrukturę i umowy dotyczące poziomu usług. W warstwie [flex] wprowadzono szczegółową kontrolę nad parametrami generowania, takimi jak liczba kroków i skala wskazówek, z myślą o zaawansowanych użytkownikach wymagających dostrojenia.

Wyjaśniając filozofię stojącą za otwartym wydaniem, BFL zauważył: „Uważamy, że inteligencję wizualną powinni kształtować badacze, twórcy i programiści na całym świecie, a nie tylko nieliczni”.

Wagi zwalniania ostro kontrastują z premierą Gemini 3 Pro Image i modelem generowania obrazu OpenAI, które działają jako w pełni zamknięte systemy. Uwalniając wagi, BFL stawia na to, że optymalizacja kierowana przez społeczność przyspieszy rozwój modelu szybciej niż same wewnętrzne prace badawczo-rozwojowe.

Programiści mogą natychmiast uzyskać dostęp do modelu za pośrednictwem platform partnerskich, w tym Fal, Replicate i TogetherAI. 

Kontekst rynkowy: wojna na rozum

Zaledwie pięć dni po zaprezentowaniu przez Google obrazu Gemini 3 Pro Image, premiera ta podkreśla zwrot w całej branży. Obie publikacje zachwalają możliwości „rozumowania”, sugerując, że dostawcy ścigają się, aby ich narzędzia były wystarczająco niezawodne do użytku w przedsiębiorstwach, a nie tylko do kreatywnych poszukiwań.

Niedawna zgłoszona umowa Meta z BFL o wartości 140 milionów dolarów potwierdza, że ​​technologia startupu jest realną alternatywą dla wewnętrznego rozwoju. Nawet giganci technologiczni dysponujący ogromnymi zasobami mają trudności z dotrzymaniem tempa wyspecjalizowanych laboratoriów w przestrzeni generatywnej sztucznej inteligencji.

BFL przewiduje, że ta zmiana będzie miała trwałe skutki, stwierdzając: „Radykalnie zmieniając ekonomię wytwarzania, FLUX.2 stanie się nieodzowną częścią naszej kreatywnej infrastruktury.”

Categories: IT Info