A Black Forest Labs (BFL) kedden kiadta hatalmas FLUX.2 modellcsaládját. A Mistral Vision-Language Model (VLM) integrálásával a startup célja, hogy a képeket valós logikában alapozza meg, ne csak pixel valószínűséggel.

Annak érdekében, hogy a 32 milliárdos paraméteres architektúra ne zúzza össze a fogyasztói hardvert, a BFL az NVIDIA-val együttműködve optimalizálja a modelleket a GeForce RTX Graphics Processing Unit (GPU Processing Unit) számára. Egy új kvantálási technika 40%-kal csökkenti a Video Random Access Memory (VRAM) használatát, lehetővé téve a hatalmas rendszer helyi működését.

A Google Gemini 3 megjelenése után néhány nappal megérkezett kiadás kihívást jelent a zárt ökoszisztémák felé való elmozdulás terén. A BFL nyílt súlyokat enged el a fejlesztők számára, fogadva, hogy a közösségi innováció felülmúlja a vállalati fallal körülvett kerteket.

“width=”644″>4″height=”9448″height=”948.jpg”

Az architektúraváltás: Az érvelés felemelkedése

A kizárólag pixel-valószínűségre támaszkodó iparági szabványtól megszakítva a Black Forest Labs (BFL) alapvetően újratervezte zászlóshajója modelljét. A FLUX.2 hibrid kialakítást alkalmaz, amely egyenirányított áramlási transzformátort lát el egy Vision-Language Modell (VLM) biztosítékkal. Ez a lépés a generatív kimenetek logikai konzisztenciájú földelésére irányul.

A „Mistral-3″ integrálásával egy 06″target=”_blank-“>06”-2-25illi paraméter. A VLM, a rendszer olyan „világismeretre” tesz szert, amely a hagyományos diffúziós modellekből hiányzik.

A VLM integrációja lehetővé teszi a modell számára, hogy a pixelek megjelenítése előtt megértse a térbeli kapcsolatokat és fizikai tulajdonságokat, közvetlenül kezelve a „hallucináció” problémáját, ahol a mesterséges intelligencia ezt a fizikailag lehetetlen tárgyakat vagy világítást generálja. Valós kreatív munkafolyamatokhoz készült, nem csak demókhoz vagy partitrükkökhöz.”

“A FLUX.2 mostantól több hivatkozási támogatást biztosít, akár 10 kép új kimenetté való kombinálásának lehetőségével, akár 4 MP-es kimeneti felbontással, lényegesen jobb azonnali ragaszkodással és világismerettel, valamint jelentősen továbbfejlesztett képnyomtatásunkkal.”– FLUX. modell létrehozása és szerkesztése a mai napig.

Több hivatkozás. 4 MP. Gyártásra kész. Nyitott súlyok.

Az újba. pic.twitter.com/wynj1vfYTV

– Black Forest Labs (@bfl_ml) 2025. november 25.

Az olyan építészeti változtatások, amelyek korábban lehetetlenné tették. A maximális kimeneti felbontás 4 megapixelre (körülbelül 2048 × 2048) nőtt, ez a specifikáció a professzionális nyomtatási és nagyfelbontású megjelenítési munkafolyamatokat célozza meg, nem csak a közösségi média felhasználását.

Az új „Multi-Reference Control” funkció lehetővé teszi a felhasználók számára, hogy egyidejűleg akár 10 különböző referenciaképet vigyenek be. A kereskedelmi forgatókönyvekhez tervezett funkció szigorú stílus-és karakterkonzisztenciát tart fenn több generáción keresztül, ami kritikus követelmény a kampányelemek létrehozásához.

A FLUX.2 egy új Variational Autoencodert (VAE) tartalmaz, amelyet a tanulhatóság, a minőség és a tömörítés egyensúlyára terveztek, tovább optimalizálva a modellt a különféle telepítési forgatókönyvekhez.

A tipográfiai lehetőségeket is túllépték. A korábbi hiányosságokat felülvizsgálva a rendszer megbízhatóan jeleníti meg az összetett szöveges karakterláncokat és elrendezéseket, célozva az előző generációs modellek hírhedt hibáját, amelyek gyakran elrontott vagy értelmetlen betűket produkáltak.

A hardver szűk keresztmetszete és az NVIDIA javítása

Az ilyen komplex mérnöki rendszer hardveres korlátainak megoldása szükséges. A jelentős, 32 milliárd paramétert súllyal a teljes modell 90 GB VRAM-ot igényel a nem kvantált állapotú betöltéséhez.

Az ilyen követelmények a modellt még a legdrágább fogyasztói hardverek, például a 24 GB-os NVIDIA GeForce RTX 4090 képességein is messzemenően kívülre helyezik. A modell helyi futtatása általában megköveteli a vállalati szintű hozzáférési képességek korlátozását. potenciális felhasználói bázis.

Ennek megoldására a BFL közvetlenül együttműködött az NVIDIA-val az FP8 (8 bites lebegőpontos) kvantálás megvalósítása érdekében. A kvantálás 40%-kal csökkenti a VRAM-igényt, miközben megőrzi az „összehasonlítható minőséget”, így a modell elérhetővé válik a csúcskategóriás, rajongó munkaállomások számára. Az NVIDIA ezt írja:

“Az új FLUX.2 modellek lenyűgözőek, ugyanakkor meglehetősen igényesek is. Megdöbbentő, 32 milliárd paraméterű modellt futtatnak, amely 90 GB VRAM-ot igényel a teljes betöltéshez.”

“A FLUX.2 modell elérhetőségének bővítése érdekében az NVIDIA és a Black Forest Labs – a modell VRAM-igényének csökkentésével 4%-ra csökkentette a 8-at. összehasonlítható minőség.”

Azok számára, akik még mindig nem rendelkeznek elegendő VRAM-mal, a ComfyUI-val való együttműködés új „súlyos adatátviteli”funkciót vezet be. A tömeges adatátvitel lehetővé teszi a modell egyes részei dinamikusan feltöltését a lassabb rendszer RAM-ba, így a következtetési sebesség kereskedelmet tesz lehetővé annak érdekében, hogy a modell egyáltalán futhasson korlátozott hardveren.

A jövőbeni hozzáférhetőséget is tervezik. Az architektúra méretben desztillált változataként leírt „Klein” modell fejlesztés alatt áll az alacsonyabb specifikációjú hardverek megcélzására, bár egy konkrét megjelenési dátum még nincs megerősítve.

Az API árai agresszíven vannak elhelyezve, becslések szerint 0 $0 és $00″target.0″>0 $0. kép. A versenytársak alákínálásával a struktúra megkérdőjelezi a „vásárlás kontra építés” dilemmáját a nagy technológiai vállalatok számára, amelyeknek el kell dönteniük, hogy saját modelleket fejlesztenek-e ki, vagy kiváló külső technológiát engedélyeznek.

Open Weights vs. The Walled Gardens

Míg a versenytársak modelljeiket zárják a szigorúan ellenőrzött API-k mögé. A FLUX.2 dev nyitott súlyokat kínál nem kereskedelmi használatra és kutatásra, lehetővé téve a közösség számára, hogy megvizsgálja az alapvető technológiát, és építsen rá.

A kereskedelmi felhasználókat a csak API-t használó [pro] és [flex] szintekhez irányítják, amelyek felügyelt infrastruktúrát és szolgáltatási szintű megállapodásokat kínálnak. A generációs paraméterek, például a lépések számának és az útmutatási skála részletes szabályozását a [flex] szinten vezetik be, a finomhangolást igénylő felhasználókat szolgálva.

A nyílt kiadás mögött meghúzódó filozófia magyarázataként BFL megjegyezte: „Úgy gondoljuk, hogy a vizuális intelligenciát kutatóknak, kreatívoknak és fejlesztőknek kell alakítaniuk.”

a Gemini 3 Pro Image bevezetése és az OpenAI képgeneráló modellje, amelyek teljesen zárt rendszerként működnek. A súlyok feloldásával a BFL arra fogad, hogy a közösség által vezérelt optimalizálás gyorsabban felgyorsítja a modell fejlesztését, mint a belső K+F önmagában.

A fejlesztők azonnal hozzáférhetnek a modellhez olyan partnerplatformokon keresztül, mint a Fal, Replicate és TogetherAI. 

Piac kontextusa: Az „okoskodás” háborúja

Csak öt nappal azután, hogy a Google bemutatta a Gemini 3 Pro Image-et, a bevezetés egy iparági fordulatot mutat. Mindkét kiadás „okosító” képességekkel rendelkezik, ami azt sugallja, hogy a gyártók azon versenyeznek, hogy eszközeiket elég megbízhatóvá tegyék vállalati használatra, nem pedig csak kreatív felfedezésre.

A Meta közelmúltban bejelentett, 140 millió dolláros szerződése a BFL-lel érvényesíti a startup technológiáját a házon belüli fejlesztés életképes alternatívájaként. Még a hatalmas erőforrásokkal rendelkező technológiai óriások is nehezen tudnak megfelelni a generatív mesterséges intelligencia területén működő speciális laboratóriumok tempójának.

A BFL előrejelzése szerint ennek az elmozdulásnak tartós hatásai lesznek, és kijelenti: „A generációs gazdaságosság radikális megváltoztatásával a FLUX.2 kreatív infrastruktúránk nélkülözhetetlen részévé válik.”

Categories: IT Info