Black Forest Labs (BFL) lançou sua enorme família de modelos FLUX.2 na terça-feira. Integrando um modelo de linguagem de visão (VLM) da Mistral, a startup visa fundamentar imagens na lógica do mundo real, em vez de apenas probabilidade de pixel.

Para evitar que a arquitetura de 32 bilhões de parâmetros destrua o hardware do consumidor, a BFL fez parceria com a NVIDIA para otimizar os modelos para unidades de processamento gráfico (GPUs) GeForce RTX. Uma nova técnica de quantização reduz o uso de memória de acesso aleatório de vídeo (VRAM) em 40%, permitindo que o enorme sistema seja executado localmente.

Chegado poucos dias após o lançamento do Gemini 3 Pro Image do Google, o lançamento desafia a mudança em direção a ecossistemas fechados. A BFL está lançando pesos abertos para desenvolvedores, apostando que a inovação comunitária superará os jardins murados corporativos.

Mudança de arquitetura: a ascensão do raciocínio

Rompendo com o padrão da indústria de confiar apenas na probabilidade de pixels, o Black Forest Labs (BFL) reprojetou fundamentalmente seu modelo principal. O FLUX.2 adota um design híbrido que funde um transformador de fluxo retificado com um modelo de linguagem de visão (VLM), um movimento destinado a aterrar saídas generativas em consistência lógica.

Ao integrar “Mistral-3″, um 24 bilhões de parâmetros VLM, o sistema ganha uma camada de “conhecimento de mundo” que falta aos modelos de difusão tradicionais.

A integração do VLM permite que o modelo entenda as relações espaciais e as propriedades físicas antes de renderizar os pixels, abordando diretamente o problema da “alucinação”, onde a IA gera objetos ou iluminação fisicamente impossíveis.

Descrevendo a intenção prática por trás dessa mudança, a empresa declarou: “O FLUX.2 foi projetado para fluxos de trabalho criativos do mundo real, não apenas demonstrações ou truques de festa.”

“O FLUX.2 agora oferece suporte a múltiplas referências, com a capacidade de combinar até 10 imagens em uma saída nova, uma resolução de saída de até 4 MP, aderência imediata e conhecimento de mundo substancialmente melhores, e tipografia significativamente melhorada.”

O FLUX.2 está aqui – nosso modelo de geração e edição de imagens mais capaz até o momento.

Multirreferência. 4 MP. Pronto para produção. Pesos abertos.

Para o novo. pic.twitter.com/wynj1vfYTV

— Laboratórios da Floresta Negra (@bfl_ml) 25 de novembro de 2025

Essas mudanças arquitetônicas permitem recursos que antes não eram confiáveis. A resolução máxima de saída foi aumentada para 4 megapixels (aproximadamente 2048×2048), uma especificação que visa fluxos de trabalho profissionais de impressão e exibição de alta resolução, em vez de apenas consumo de mídia social.

Um novo recurso “Controle de múltiplas referências” permite que os usuários insiram até 10 imagens de referência distintas simultaneamente. Projetado para storyboards comerciais, o recurso mantém um estilo estrito e consistência de personagem entre várias gerações, um requisito crítico para a criação de ativos de campanha.

O FLUX.2 inclui um novo codificador automático variacional (VAE) projetado para equilibrar capacidade de aprendizado, qualidade e compactação, otimizando ainda mais o modelo para diversos cenários de implantação.

Os recursos de tipografia também foram revisados. Corrigindo pontos fracos anteriores, o sistema renderiza sequências de texto e layouts complexos de maneira confiável, visando uma falha notória dos modelos da geração anterior que muitas vezes produziam letras distorcidas ou sem sentido.

O Gargalo de Hardware e a Correção da NVIDIA

Abordar as limitações de hardware inerentes a um sistema tão complexo exigiu um esforço de engenharia dedicado. Pesando substanciais 32 bilhões de parâmetros, o modelo completo exige 90 GB de VRAM para carregar em seu estado não quantizado.

Esses requisitos colocam o modelo bem fora das capacidades até mesmo do hardware de consumo mais caro, como a NVIDIA GeForce RTX 4090 de 24 GB. A execução local do modelo normalmente exigiria clusters de servidores de nível empresarial, limitando sua acessibilidade a uma fração da base de usuários em potencial.

Para resolver isso, BFL fez parceria direta com a NVIDIA para implementar a quantização FP8 (ponto flutuante de 8 bits). A quantização reduz os requisitos de VRAM em 40%, mantendo a “qualidade comparável”, colocando o modelo ao alcance de estações de trabalho para entusiastas de última geração. A NVIDIA escreve:”Os novos modelos FLUX.2 são impressionantes, mas também bastante exigentes. Eles executam um modelo impressionante de 32 bilhões de parâmetros que requer 90 GB de VRAM para carregar completamente.”[…] “Para ampliar a acessibilidade do modelo FLUX.2, a NVIDIA e o Black Forest Labs colaboraram para quantizar o modelo para o FP8 — reduzindo os requisitos de VRAM em 40% com qualidade comparável.”

Para usuários que ainda não têm VRAM suficiente, uma colaboração com a ComfyUI introduz um novo recurso de “streaming de peso”. O streaming de peso permite que partes do modelo sejam descarregadas dinamicamente para uma RAM de sistema mais lenta, trocando a velocidade de inferência pela capacidade de executar o modelo em hardware restrito.

Acessibilidade futura também está planejada. Um modelo “Klein”, descrito como uma versão destilada da arquitetura, está em desenvolvimento para atingir hardware de especificações mais baixas, embora uma data de lançamento específica ainda não tenha sido confirmada.

O preço da API é posicionado de forma agressiva, estimado entre US$ 0,01 e US$ 0,04 por imagem. Subcotando os concorrentes, a estrutura desafia o dilema “comprar versus construir” para as grandes empresas de tecnologia que devem decidir se desenvolvem seus próprios modelos ou licenciam tecnologia externa superior.

Pesos Abertos vs. Jardins Murados

Enquanto os concorrentes bloqueiam seus modelos atrás de APIs estritamente controladas, a BFL mantém uma estratégia de lançamento em camadas que inclui acesso aberto. FLUX.2 dev oferece pesos abertos para uso não comercial e pesquisa, permitindo que a comunidade inspecione e desenvolva a tecnologia principal.

Os usuários comerciais são direcionados para os níveis [pro] e [flex] somente API, que oferecem infraestrutura gerenciada e acordos de nível de serviço. O controle granular sobre os parâmetros de geração, como contagem de passos e escala de orientação, é introduzido no nível [flex], atendendo a usuários avançados que precisam de ajuste fino.

Explicando a filosofia por trás do lançamento aberto, BFL observou: “Acreditamos que a inteligência visual deve ser moldada por pesquisadores, criativos e desenvolvedores em todos os lugares, não apenas por alguns.”sistemas fechados. Ao liberar os pesos, a BFL aposta que a otimização orientada pela comunidade acelerará o desenvolvimento do modelo mais rapidamente do que apenas a pesquisa e desenvolvimento interno.

Os desenvolvedores podem acessar o modelo por meio de plataformas parceiras, incluindo Fal, Replicate e TogetherAI imediatamente. 

Contexto de mercado: a guerra dos ‘raciocínios’

Apenas cinco dias após o Google revelar o Gemini 3 Pro Image, o lançamento destaca um pivô em todo o setor. Ambos os lançamentos promovem capacidades de “raciocínio”, sugerindo que os fornecedores estão correndo para tornar suas ferramentas confiáveis ​​o suficiente para uso empresarial, em vez de apenas exploração criativa.

O recente acordo de US$ 140 milhões da Meta com a BFL valida a tecnologia da startup como uma alternativa viável ao desenvolvimento interno. Mesmo os gigantes da tecnologia com vastos recursos estão tendo dificuldade em acompanhar o ritmo dos laboratórios especializados no espaço generativo de IA.

A BFL prevê que esta mudança terá efeitos duradouros, afirmando: “Ao mudar radicalmente a economia da geração, o FLUX.2 se tornará uma parte indispensável da nossa infraestrutura criativa.”

Categories: IT Info