Black Forest Labs (BFL) a publié mardi sa vaste famille de modèles FLUX.2. En intégrant un modèle de langage de vision (VLM) de Mistral, la startup vise à ancrer les images dans une logique du monde réel plutôt que dans une simple probabilité de pixels.
Pour éviter que l’architecture de 32 milliards de paramètres n’écrase le matériel grand public, BFL s’est associé à NVIDIA pour optimiser les modèles pour les unités de traitement graphique (GPU) GeForce RTX. Une nouvelle technique de quantification réduit l’utilisation de la mémoire vidéo aléatoire (VRAM) de 40 %, permettant ainsi à l’énorme système de fonctionner localement.
Arrivée quelques jours seulement après le lancement de Gemini 3 Pro Image de Google, cette version remet en question la transition vers des écosystèmes fermés. BFL publie des pondérations ouvertes pour les développeurs, pariant que l’innovation communautaire dépassera les jardins clos d’entreprise.
Changement d’architecture : l’essor du raisonnement
S’écartant de la norme industrielle consistant à s’appuyer uniquement sur la probabilité des pixels, Black Forest Labs (BFL) a fondamentalement repensé l’architecture de son modèle phare. FLUX.2 adopte une conception hybride qui fusionne un transformateur de flux rectifié avec un modèle de langage de vision (VLM), une démarche destinée à ancrer les sorties génératives dans une cohérence logique.
En intégrant « Mistral-3 », un 24 milliards de paramètres VLM, le système acquiert une couche de « connaissance du monde » qui manque aux modèles de diffusion traditionnels.
L’intégration du VLM permet au modèle de comprendre les relations spatiales et les propriétés physiques avant de restituer les pixels, abordant directement le problème des « hallucinations » où l’IA génère des objets ou un éclairage physiquement impossibles.
Décrivant l’intention pratique derrière ce changement, la société a déclaré: « FLUX.2 est conçu pour les flux de travail créatifs du monde réel, pas seulement pour les démos ou les astuces de fête. »
« FLUX.2 fournit désormais prise en charge multi-références, avec la possibilité de combiner jusqu’à 10 images dans une nouvelle sortie, une résolution de sortie allant jusqu’à 4MP, une adhésion rapide et une connaissance du monde nettement meilleures, et une typographie considérablement améliorée. 4MP. Prêt pour la production. Poids ouverts.
Dans le nouveau. pic.twitter.com/wynj1vfYTV
— Laboratoires de la Forêt-Noire (@bfl_ml) 25 novembre 2025
De telles modifications architecturales activent des fonctionnalités qui n’étaient auparavant pas fiables. La résolution de sortie maximale a été augmentée à 4 mégapixels (environ 2 048 × 2 048), une spécification qui cible les flux de travail d’impression professionnels et d’affichage haute résolution plutôt que la simple consommation des médias sociaux.
Une nouvelle fonctionnalité « Contrôle multi-référence » permet aux utilisateurs de saisir simultanément jusqu’à 10 images de référence distinctes. Conçue pour le storyboard commercial, la fonctionnalité maintient une cohérence stricte de style et de caractère sur plusieurs générations, une exigence essentielle pour la création d’actifs de campagne.
FLUX.2 inclut un nouveau codeur automatique variationnel (VAE) conçu pour équilibrer l’apprentissage, la qualité et la compression, optimisant davantage le modèle pour divers scénarios de déploiement.
Les capacités de typographie ont également été révisées. En révisant les faiblesses précédentes, le système restitue de manière fiable les chaînes de texte et les mises en page complexes, ciblant un défaut notoire des modèles de génération précédente qui produisaient souvent des lettres tronquées ou absurdes.
Le goulot d’étranglement matériel et la solution de NVIDIA
Résoudre les limitations matérielles inhérentes à un système aussi complexe a nécessité un effort d’ingénierie dédié. Pesant 32 milliards de paramètres, le modèle complet nécessite 90 Go de VRAM pour être chargé dans son état non quantifié.
De telles exigences placent le modèle bien en dehors des capacités du matériel grand public, même le plus cher, comme la NVIDIA GeForce RTX 4090 de 24 Go. L’exécution du modèle localement nécessiterait généralement des clusters de serveurs de niveau entreprise, limitant son accessibilité à une fraction de la base d’utilisateurs potentiels.
Pour résoudre ce problème, BFL s’est associé directement à NVIDIA pour implémenter la quantification FP8 (virgule flottante 8 bits). La quantification réduit les besoins en VRAM de 40 % tout en conservant une « qualité comparable », mettant le modèle à la portée des postes de travail des passionnés haut de gamme. NVIDIA écrit :
“Les nouveaux modèles FLUX.2 sont impressionnants, mais aussi assez exigeants. Ils exécutent un modèle stupéfiant de 32 milliards de paramètres nécessitant 90 Go de VRAM pour un chargement complet.”[…] « Pour élargir l’accessibilité du modèle FLUX.2, NVIDIA et Black Forest Labs ont collaboré pour quantifier le modèle jusqu’au FP8, réduisant ainsi les exigences de VRAM de 40 % à qualité comparable. Le streaming de poids permet à des parties du modèle d’être déchargées dynamiquement vers une RAM système plus lente, échangeant la vitesse d’inférence contre la possibilité d’exécuter le modèle sur du matériel contraint.
Une accessibilité future est également prévue. Un modèle « Klein », décrit comme une version réduite de l’architecture, est en cours de développement pour cibler du matériel aux spécifications inférieures, bien qu’une date de sortie spécifique reste non confirmée.
Le prix de l’API est positionné de manière agressive, estimé entre 0,01 $ et 0,04 $ par image. En sous-cotant ses concurrents, la structure remet en question le dilemme « acheter ou construire » pour les grandes entreprises technologiques qui doivent décider de développer leurs propres modèles ou de concéder sous licence une technologie externe supérieure.
Open Weights vs. The Walled Gardens
Alors que les concurrents verrouillent leurs modèles derrière des API strictement contrôlées, BFL maintient une stratégie de publication à plusieurs niveaux qui inclut le libre accès. FLUX.2 dev propose des pondérations ouvertes pour une utilisation et une recherche non commerciales, permettant à la communauté d’inspecter et de s’appuyer sur la technologie de base.
Les utilisateurs commerciaux sont dirigés vers les niveaux API uniquement [pro] et [flex], qui offrent une infrastructure gérée et des accords de niveau de service. Un contrôle granulaire des paramètres de génération, tels que le nombre de pas et l’échelle de guidage, est introduit dans le niveau [flex], pour répondre aux utilisateurs expérimentés qui ont besoin d’un réglage précis.
Expliquant la philosophie derrière la version ouverte, BFL a noté :”Nous pensons que l’intelligence visuelle devrait être façonnée par les chercheurs, les créatifs et les développeurs du monde entier, et pas seulement par quelques-uns.”
La publication des pondérations contraste fortement avec le lancement de Gemini 3 Pro Image et le modèle de génération d’images d’OpenAI, qui fonctionnent comme systèmes entièrement fermés. En publiant les pondérations, BFL parie que l’optimisation pilotée par la communauté accélérera le développement du modèle plus rapidement que la R&D interne seule.
Les développeurs peuvent accéder immédiatement au modèle via des plateformes partenaires, notamment Fal, Replicate et TogetherAI.
Contexte du marché : la guerre du « raisonnement »
Arrivé cinq jours seulement après que Google a dévoilé Gemini 3 Pro Image, le lancement met en évidence un tournant à l’échelle de l’industrie. Les deux versions vantent les capacités de « raisonnement », suggérant que les fournisseurs s’efforcent de rendre leurs outils suffisamment fiables pour une utilisation en entreprise plutôt que pour une simple exploration créative.
Le récent accord de 140 millions de dollars de Meta avec BFL valide la technologie de la startup comme une alternative viable au développement en interne. Même les géants de la technologie disposant de vastes ressources ont du mal à suivre le rythme des laboratoires spécialisés dans le domaine de l’IA générative.
BFL prédit que ce changement aura des effets durables, déclarant :”En changeant radicalement l’économie de la génération, FLUX.2 deviendra un élément indispensable de notre infrastructure créative.”