Black Forest Labs (BFL) lanzó el martes su enorme familia de modelos FLUX.2. Al integrar un modelo Vision-Language (VLM) de Mistral, la startup tiene como objetivo basar las imágenes en la lógica del mundo real en lugar de solo en la probabilidad de píxeles.

Para evitar que la arquitectura de 32 mil millones de parámetros aplaste el hardware de consumo, BFL se asoció con NVIDIA para optimizar los modelos para las unidades de procesamiento de gráficos (GPU) GeForce RTX. Una nueva técnica de cuantificación reduce el uso de la memoria de acceso aleatorio de vídeo (VRAM) en un 40 %, lo que permite que el enorme sistema se ejecute localmente.

El lanzamiento, que llega pocos días después del lanzamiento de Gemini 3 de Google, desafía el cambio hacia ecosistemas cerrados. BFL está lanzando pesos abiertos para desarrolladores, apostando a que la innovación comunitaria superará a los jardines amurallados corporativos.

Cambio en la arquitectura: el auge de Razonamiento

Rompiendo con el estándar de la industria de confiar únicamente en la probabilidad de píxeles, Black Forest Labs (BFL) ha rediseñado fundamentalmente su modelo insignia. FLUX.2 adopta un diseño híbrido que fusiona un transformador de flujo rectificado con un modelo de visión-lenguaje (VLM), un movimiento destinado a conectar las salidas generativas con coherencia lógica.

Al integrar “Mistral-3″, un VLM de 24 mil millones de parámetros, el sistema gana una capa de”conocimiento mundial”de la que carecen los modelos de difusión tradicionales.

La integración del VLM permite que el modelo comprenda las relaciones espaciales y las propiedades físicas antes de representar los píxeles, abordando directamente el problema de las”alucinaciones”en las que la IA genera objetos o iluminación físicamente imposibles.

Al describir la intención práctica detrás de este cambio, la compañía afirmó:”FLUX.2 está diseñado para flujos de trabajo creativos del mundo real, no solo demostraciones o trucos de fiesta”.

“FLUX.2 ahora ofrece compatibilidad con múltiples referencias, con la capacidad de combinar hasta 10 imágenes en una salida novedosa, una resolución de salida de hasta 4 MP, una adherencia a las indicaciones y un conocimiento del mundo sustancialmente mejores, y una tipografía significativamente mejorada”.

FLUX.2 ya está aquí: nuestro modelo de generación y edición de imágenes más capaz hasta la fecha.

Multirreferencia. 4 megapíxeles. Listo para producción. Pesas abiertas.

Hacia lo nuevo. pic.twitter.com/wynj1vfYTV

— Laboratorios de la Selva Negra (@bfl_ml) 25 de noviembre de 2025

Estos cambios arquitectónicos habilitan capacidades que antes no eran confiables. La resolución máxima de salida se ha aumentado a 4 megapíxeles (aproximadamente 2048×2048), una especificación que apunta a flujos de trabajo de impresión profesional y visualización de alta resolución en lugar de solo al consumo de redes sociales.

Una nueva función de”Control de referencia múltiple”permite a los usuarios ingresar hasta 10 imágenes de referencia distintas simultáneamente. Diseñada para guiones gráficos comerciales, la función mantiene una coherencia estricta de estilo y personajes a través de múltiples generaciones, un requisito crítico para la creación de activos de campaña.

FLUX.2 incluye un nuevo codificador automático variacional (VAE) diseñado para equilibrar la capacidad de aprendizaje, la calidad y la compresión, optimizando aún más el modelo para diversos escenarios de implementación.

También se han revisado las capacidades de tipografía. Al corregir debilidades anteriores, el sistema genera cadenas de texto complejas y diseños de manera confiable, apuntando a un defecto notorio de los modelos de la generación anterior que a menudo producía letras confusas o sin sentido.

El cuello de botella del hardware y la solución de NVIDIA

Abordar las limitaciones de hardware inherentes a un sistema tan complejo requirió un esfuerzo de ingeniería dedicado. Con un peso sustancial de 32 mil millones de parámetros, el modelo completo exige 90 GB de VRAM para cargarse en su estado no cuantificado.

Dichos requisitos colocan al modelo muy fuera de las capacidades incluso del hardware de consumo más caro, como la NVIDIA GeForce RTX 4090 de 24 GB. Ejecutar el modelo localmente normalmente requeriría clústeres de servidores de nivel empresarial, lo que limita su accesibilidad a una fracción de la base de usuarios potencial.

Para resolver esto, BFL se asoció directamente con NVIDIA para implementar la cuantización FP8 (coma flotante de 8 bits). La cuantificación reduce los requisitos de VRAM en un 40% y al mismo tiempo mantiene una”calidad comparable”, lo que pone el modelo al alcance de las estaciones de trabajo entusiastas de alta gama. NVIDIA escribe:

“Los nuevos modelos FLUX.2 son impresionantes, pero también bastante exigentes. Ejecutan un asombroso modelo de 32 mil millones de parámetros que requiere 90 GB de VRAM para cargarse completamente”.

“Para ampliar la accesibilidad del modelo FLUX.2, NVIDIA y Black Forest Labs colaboraron para cuantificar el modelo al FP8, reduciendo los requisitos de VRAM en un 40 % con una calidad comparable”.

Para los usuarios que todavía carecen de suficiente VRAM, una colaboración con ComfyUI, presenta una nueva función de”transmisión de peso”. La transmisión de peso permite que partes del modelo se descarguen dinámicamente a una RAM del sistema más lenta, intercambiando la velocidad de inferencia por la capacidad de ejecutar el modelo en hardware restringido.

También se planea accesibilidad futura. Se está desarrollando un modelo”Klein”, descrito como una versión destilada de tamaño de la arquitectura, para apuntar a hardware de especificaciones más bajas, aunque aún no se ha confirmado una fecha de lanzamiento específica.

El precio de la API se posiciona agresivamente, estimado entre $0,01 y $0,04 por imagen. Al socavar a los competidores, la estructura desafía el dilema”comprar versus construir”para las grandes empresas de tecnología que deben decidir si desarrollar sus propios modelos o licenciar tecnología externa superior.

Open Weights vs. The Walled Gardens

Mientras que los competidores bloquean sus modelos detrás de API estrictamente controladas, BFL mantiene una estrategia de lanzamiento escalonada que incluye acceso abierto. FLUX.2 dev ofrece pesos abiertos para uso no comercial e investigación, lo que permite a la comunidad inspeccionar y desarrollar la tecnología central.

Los usuarios comerciales son dirigidos a los niveles [pro] y [flex] de solo API, que ofrecen infraestructura administrada y acuerdos de nivel de servicio. El control granular sobre los parámetros de generación, como el recuento de pasos y la escala de orientación, se introduce en el nivel [flex], dirigido a usuarios avanzados que requieren ajustes.

Al explicar la filosofía detrás del lanzamiento abierto, BFL señaló:”Creemos que la inteligencia visual debe ser moldeada por investigadores, creativos y desarrolladores de todas partes, no solo por unos pocos”.

La liberación de pesos contrasta marcadamente con el lanzamiento de Gemini 3 Pro Image y el modelo de generación de imágenes de OpenAI, que funcionan como Sistemas completamente cerrados. Al publicar los pesos, BFL apuesta a que la optimización impulsada por la comunidad acelerará el desarrollo del modelo más rápido que la I+D interna por sí sola.

Los desarrolladores pueden acceder al modelo a través de plataformas asociadas, incluidas Fal, Replicate y TogetherAI, de inmediato. 

Contexto del mercado: la guerra del “razonamiento”

El lanzamiento, que llega apenas cinco días después de que Google presentara Gemini 3 Pro Image, destaca un giro en toda la industria. Ambos lanzamientos promocionan capacidades de”razonamiento”, lo que sugiere que los proveedores están compitiendo para hacer que sus herramientas sean lo suficientemente confiables para el uso empresarial en lugar de simplemente exploración creativa.

El reciente acuerdo de $140 millones de Meta con BFL valida la tecnología de la startup como una alternativa viable al desarrollo interno. Incluso a los gigantes tecnológicos con vastos recursos les resulta difícil igualar el ritmo de los laboratorios especializados en el espacio de la IA generativa.

BFL predice que este cambio tendrá efectos duraderos y afirma:”Al cambiar radicalmente la economía de la generación, FLUX.2 se convertirá en una parte indispensable de nuestra infraestructura creativa”.

Categories: IT Info