Black Forest Labs (BFL) hat am Dienstag seine riesige FLUX.2-Modellfamilie veröffentlicht. Durch die Integration eines Vision-Language-Modells (VLM) von Mistral zielt das Startup darauf ab, Bilder auf realer Logik und nicht nur auf Pixelwahrscheinlichkeit zu basieren.
Um zu verhindern, dass die 32-Milliarden-Parameter-Architektur Verbraucherhardware überlastet, hat BFL mit NVIDIA zusammengearbeitet, um die Modelle für GeForce RTX-Grafikprozessoren (GPUs) zu optimieren. Eine neue Quantisierungstechnik reduziert die Nutzung des Video Random Access Memory (VRAM) um 40 %, sodass das riesige System lokal ausgeführt werden kann.
Nur wenige Tage nach der Veröffentlichung von Googles Gemini 3 Pro Image fordert die Veröffentlichung den Wandel hin zu geschlossenen Ökosystemen heraus. BFL veröffentlicht offene Gewichtungen für Entwickler und geht davon aus, dass Community-Innovationen die Walled Gardens von Unternehmen übertreffen werden.
Architekturwandel: Der Aufstieg des Denkens
Black Forest Labs (BFL) hat mit dem Branchenstandard gebrochen, sich ausschließlich auf die Pixelwahrscheinlichkeit zu verlassen, und die Architektur seines Flaggschiffmodells grundlegend überarbeitet. FLUX.2 verwendet ein Hybriddesign, das einen gleichgerichteten Flusstransformator mit einem Vision-Language-Modell (VLM) verbindet, ein Schritt, der generative Ausgänge in logischer Konsistenz verankern soll.
Durch die Integration von „Mistral-3“ wird ein 24-Milliarden-Parameter verwendet Mit VLM erhält das System eine Ebene an „Weltwissen“, die herkömmlichen Diffusionsmodellen fehlt.
Die Integration des VLM ermöglicht es dem Modell, räumliche Beziehungen und physikalische Eigenschaften zu verstehen, bevor es Pixel rendert, und geht so direkt auf das „Halluzinationsproblem“ ein, bei dem KI physikalisch unmögliche Objekte oder Beleuchtung erzeugt.
Das Unternehmen beschrieb die praktische Absicht hinter dieser Verschiebung wie folgt: „FLUX.2 ist für kreative Arbeitsabläufe in der realen Welt konzipiert, nicht nur für Demos oder Partytricks.“
„FLUX.2 bietet jetzt Multi-Referenz-Unterstützung mit der Möglichkeit, bis zu 10 Bilder zu einer neuartigen Ausgabe zu kombinieren, eine Ausgabeauflösung von bis zu 4 MP, wesentlich bessere Prompt-Einhaltung und Weltkenntnis sowie deutlich verbesserte Typografie.“
FLUX.2 ist da – unser bisher leistungsfähigstes Bildgenerierungs-und Bearbeitungsmodell.
Multi-Referenz. 4MP. Produktionsbereit. Offene Gewichte.
Ins Neue. pic.twitter.com/wynj1vfYTV
– Black Forest Labs (@bfl_ml) 25. November 2025
Solche Architekturänderungen ermöglichen Funktionen, die zuvor unzuverlässig waren. Die maximale Ausgabeauflösung wurde auf 4 Megapixel (ca. 2048 x 2048) erhöht, eine Spezifikation, die auf professionelle Druck-und hochauflösende Anzeige-Workflows abzielt und nicht nur auf die Nutzung sozialer Medien.
Eine neue Funktion „Multi-Reference Control“ ermöglicht es Benutzern, bis zu 10 verschiedene Referenzbilder gleichzeitig einzugeben. Die für kommerzielles Storyboarding konzipierte Funktion sorgt für eine strikte Stil-und Charakterkonsistenz über mehrere Generationen hinweg, eine entscheidende Voraussetzung für die Erstellung von Kampagnen-Assets.
FLUX.2 enthält einen neuen Variational Autoencoder (VAE), der darauf ausgelegt ist, Lernbarkeit, Qualität und Komprimierung in Einklang zu bringen und das Modell für verschiedene Einsatzszenarien weiter zu optimieren.
Die Typografiefunktionen wurden ebenfalls überarbeitet. Das System überwindet frühere Schwächen und gibt komplexe Textzeichenfolgen und Layouts zuverlässig wieder. Dabei behebt es einen berüchtigten Fehler früherer Generationsmodelle, der häufig verstümmelte oder unsinnige Schriften erzeugte.
Der Hardware-Engpass und die Lösung von NVIDIA
Die Behebung der Hardware-Einschränkungen, die einem so komplexen System innewohnen, erforderte einen besonderen technischen Aufwand. Mit einem Gewicht von beachtlichen 32 Milliarden Parametern benötigt das vollständige Modell 90 GB VRAM zum Laden in seinem unquantisierten Zustand.
Solche Anforderungen stellen das Modell weit außerhalb der Fähigkeiten selbst der teuersten Consumer-Hardware, wie der 24 GB NVIDIA GeForce RTX 4090. Für die lokale Ausführung des Modells wären normalerweise Servercluster der Enterprise-Klasse erforderlich, was den Zugriff auf einen Bruchteil der potenziellen Benutzerbasis beschränkt.
Um dieses Problem zu lösen, BFL hat direkt mit NVIDIA zusammengearbeitet, um die FP8-Quantisierung (8-Bit-Gleitkomma) zu implementieren. Durch die Quantisierung werden die VRAM-Anforderungen um 40 % reduziert und gleichzeitig eine „vergleichbare Qualität“ beibehalten, sodass das Modell für High-End-Workstations für Enthusiasten erreichbar ist. NVIDIA schreibt:
„Die neuen FLUX.2-Modelle sind beeindruckend, aber auch ziemlich anspruchsvoll. Sie laufen mit einem atemberaubenden 32-Milliarden-Parameter-Modell, für dessen vollständiges Laden 90 GB VRAM erforderlich sind.“ […] „Um die Zugänglichkeit des FLUX.2-Modells zu erweitern, haben NVIDIA und Black Forest Labs zusammengearbeitet, um das Modell auf FP8 zu quantifizieren – wodurch die VRAM-Anforderungen bei vergleichbarer Qualität um 40 % reduziert wurden.“
Für Benutzer, denen immer noch nicht genügend VRAM zur Verfügung steht, führt eine Zusammenarbeit mit ComfyUI eine neue „Gewichtungs-Streaming“-Funktion ein. Durch Gewichtsstreaming können Teile des Modells dynamisch in einen langsameren System-RAM verlagert werden, wobei die Inferenzgeschwindigkeit gegen die Möglichkeit eingetauscht wird, das Modell überhaupt auf eingeschränkter Hardware auszuführen.
Zukünftige Zugänglichkeit ist ebenfalls geplant. Ein „Klein“-Modell, das als eine größenreduzierte Version der Architektur beschrieben wird, befindet sich in der Entwicklung, um auf Hardware mit niedrigeren Spezifikationen abzuzielen, obwohl ein konkretes Veröffentlichungsdatum noch unbestätigt ist.
Die Preise für die API sind aggressiv und werden auf $0,01 und $0,04 pro Bild geschätzt. Die Struktur unterbietet die Konkurrenz und stellt das „Kaufen vs. Bauen“-Dilemma für große Technologieunternehmen in Frage, die entscheiden müssen, ob sie ihre eigenen Modelle entwickeln oder überlegene externe Technologie lizenzieren wollen.
Open Weights vs. The Walled Gardens
Während Konkurrenten ihre Modelle hinter streng kontrollierten APIs sperren, verfolgt BFL eine abgestufte Release-Strategie, die Open Access beinhaltet. FLUX.2 dev bietet offene Gewichte für nicht-kommerzielle Nutzung und Forschung, sodass die Community die Kerntechnologie prüfen und darauf aufbauen kann.
Kommerzielle Benutzer werden auf die Nur-API-Stufen [Pro] und [Flex] verwiesen, die verwaltete Infrastruktur und Service-Level-Agreements bieten. In der [Flex]-Stufe wird eine granulare Kontrolle über Generierungsparameter wie Schrittanzahl und Führungsskala eingeführt, um Power-Usern gerecht zu werden, die eine Feinabstimmung benötigen.
BFL erläuterte die Philosophie hinter der offenen Veröffentlichung: „Wir glauben, dass visuelle Intelligenz von Forschern, Kreativen und Entwicklern auf der ganzen Welt gestaltet werden sollte, nicht nur von einigen wenigen.“
Die Veröffentlichung von Gewichten steht in scharfem Kontrast zur Einführung des Gemini 3 Pro Image und zum Bildgenerierungsmodell von OpenAI, die vollständig geschlossen funktionieren Systeme. Durch die Veröffentlichung der Gewichte geht BFL davon aus, dass die von der Community vorangetriebene Optimierung die Entwicklung des Modells schneller beschleunigen wird als interne Forschung und Entwicklung allein.
Entwickler können über Partnerplattformen wie Fal, Replicate und TogetherAI sofort auf das Modell zugreifen.
Marktkontext: Der „Vernunftkrieg“
Nur fünf Tage nach der Vorstellung von Gemini 3 Pro Image durch Google markiert die Markteinführung einen branchenweiten Wendepunkt. Beide Veröffentlichungen preisen „Reasoning“-Fähigkeiten an, was darauf hindeutet, dass die Anbieter darum kämpfen, ihre Tools zuverlässig genug für den Einsatz in Unternehmen und nicht nur für die kreative Erkundung zu machen.
Metas kürzlich gemeldeter 140-Millionen-Dollar-Deal mit BFL bestätigt die Technologie des Startups als praktikable Alternative zur Eigenentwicklung. Selbst Technologiegiganten mit enormen Ressourcen haben Schwierigkeiten, mit dem Tempo spezialisierter Labore im Bereich der generativen KI mitzuhalten.
BFL prognostiziert, dass dieser Wandel nachhaltige Auswirkungen haben wird, und erklärt: „Durch die radikale Veränderung der Ökonomie der Erzeugung wird FLUX.2 zu einem unverzichtbaren Teil unserer kreativen Infrastruktur.“