Martedì Black Forest Labs (BFL) ha rilasciato la sua massiccia famiglia di modelli FLUX.2. Integrando un modello di visione-linguaggio (VLM) di Mistral, la startup mira a radicare le immagini nella logica del mondo reale piuttosto che nella semplice probabilità dei pixel.
Per evitare che l’architettura da 32 miliardi di parametri schiacciasse l’hardware consumer, BFL ha collaborato con NVIDIA per ottimizzare i modelli per le unità di elaborazione grafica (GPU) GeForce RTX. Una nuova tecnica di quantizzazione riduce l’utilizzo della memoria ad accesso casuale video (VRAM) del 40%, consentendo all’enorme sistema di funzionare localmente.
Arrivata pochi giorni dopo il lancio di Gemini 3 Pro Image di Google, la versione sfida il passaggio verso ecosistemi chiusi. BFL sta rilasciando misure aperte per gli sviluppatori, scommettendo che l’innovazione comunitaria supererà i giardini recintati aziendali.
Cambiamento dell’architettura: l’ascesa del ragionamento
Rompere lo standard del settore di fare affidamento esclusivamente sulla probabilità dei pixel, Black Forest Labs (BFL) ha radicalmente riprogettato il suo modello di punta. FLUX.2 adotta un design ibrido che fonde un trasformatore di flusso rettificato con un modello di linguaggio visivo (VLM), una mossa intesa a radicare gli output generativi in coerenza logica.
Integrando”Mistral-3″, un 24 miliardi di parametri VLM, il sistema acquisisce uno strato di”conoscenza del mondo”che manca ai modelli di diffusione tradizionali.
L’integrazione del VLM consente al modello di comprendere le relazioni spaziali e le proprietà fisiche prima del rendering dei pixel, affrontando direttamente il problema delle”allucinazioni”in cui l’intelligenza artificiale genera oggetti o luci fisicamente impossibili.
Descrivendo l’intento pratico dietro questo cambiamento, l’azienda ha affermato:”FLUX.2 è progettato per flussi di lavoro creativi del mondo reale, non solo demo o trucchi per feste.”
“FLUX.2 ora fornisce supporto multi-riferimento, con la possibilità di combinare fino a 10 immagini in un nuovo output, una risoluzione di output fino a 4 MP, aderenza immediata e conoscenza del mondo sostanzialmente migliori e tipografia significativamente migliorata.”
FLUX.2 è qui: il nostro modello di generazione e modifica di immagini più capace fino ad oggi.
Multi-riferimento. 4MP. Pronto per la produzione. Apri i pesi.
Nel nuovo. pic.twitter.com/wynj1vfYTV
— Black Forest Labs (@bfl_ml) 25 novembre 2025
Tali modifiche all’architettura abilitano funzionalità precedentemente inaffidabili. La risoluzione massima di output è stata aumentata a 4 megapixel (circa 2048×2048), una specifica che si rivolge ai flussi di lavoro di stampa professionale e di visualizzazione ad alta risoluzione piuttosto che al semplice consumo dei social media.
Una nuova funzione”Controllo multi-riferimento”consente agli utenti di inserire fino a 10 immagini di riferimento distinte contemporaneamente. Progettata per lo storyboard commerciale, la funzionalità mantiene uno stile rigoroso e una coerenza dei caratteri tra più generazioni, un requisito fondamentale per la creazione di risorse della campagna.
FLUX.2 include un nuovo Variational Autoencoder (VAE) progettato per bilanciare apprendibilità, qualità e compressione, ottimizzando ulteriormente il modello per diversi scenari di distribuzione.
Anche le funzionalità tipografiche sono state riviste. Risolvendo i precedenti punti deboli, il sistema esegue il rendering di stringhe di testo e layout complessi in modo affidabile, risolvendo un noto difetto dei modelli della generazione precedente che spesso produceva caratteri confusi o privi di senso.
Il collo di bottiglia hardware e la soluzione di NVIDIA
Risolvere le limitazioni hardware inerenti a un sistema così complesso ha richiesto uno sforzo ingegneristico dedicato. Con un peso di ben 32 miliardi di parametri, il modello completo richiede 90 GB di VRAM per essere caricato nel suo stato non quantizzato.
Tali requisiti collocano il modello ben al di fuori delle capacità anche dell’hardware consumer più costoso, come la NVIDIA GeForce RTX 4090 da 24 GB. L’esecuzione del modello localmente richiederebbe in genere cluster di server di livello aziendale, limitando la sua accessibilità a una frazione della potenziale base di utenti.
Per risolvere questo problema, BFL ha collaborato direttamente con NVIDIA per implementare la quantizzazione FP8 (virgola mobile a 8 bit). La quantizzazione riduce i requisiti di VRAM del 40% mantenendo una”qualità comparabile”, portando il modello alla portata delle workstation per appassionati di fascia alta. NVIDIA scrive:”I nuovi modelli FLUX.2 sono impressionanti, ma anche piuttosto impegnativi. Eseguono un incredibile modello da 32 miliardi di parametri che richiedono 90 GB di VRAM per essere caricati completamente.”[…] “Per ampliare l’accessibilità del modello FLUX.2, NVIDIA e Black Forest Labs hanno collaborato per quantizzare il modello all’8° PQ, riducendo i requisiti di VRAM del 40% con una qualità paragonabile.”
Per gli utenti che non dispongono ancora di VRAM sufficiente, una collaborazione con ComfyUI introduce una nuova funzionalità di”streaming del peso”. Lo streaming del peso consente di scaricare dinamicamente parti del modello su una RAM di sistema più lenta, scambiando la velocità di inferenza con la possibilità di eseguire il modello su hardware limitato.
È prevista anche l’accessibilità futura. Un modello”Klein”, descritto come una versione ridotta delle dimensioni dell’architettura, è in fase di sviluppo per rivolgersi a hardware con specifiche inferiori, anche se una data di rilascio specifica rimane non confermata.
I prezzi per l’API sono posizionati in modo aggressivo, stimati tra $ 0,01 e $ 0,04 per immagine. Riducendo i concorrenti, la struttura sfida il dilemma”acquistare vs. costruire”per le grandi aziende tecnologiche che devono decidere se sviluppare i propri modelli o concedere in licenza una tecnologia esterna superiore.
Open Weights vs. Walled Gardens
Mentre i concorrenti bloccano i loro modelli dietro API strettamente controllate, BFL sta mantenendo una strategia di rilascio a più livelli che include l’accesso aperto. FLUX.2 dev offre pesi aperti per uso e ricerca non commerciale, consentendo alla comunità di ispezionare e sviluppare la tecnologia di base.
Gli utenti commerciali vengono indirizzati ai livelli solo API [pro] e [flex], che offrono infrastrutture gestite e accordi sul livello di servizio. Il controllo granulare sui parametri di generazione, come il conteggio dei passi e la scala di guida, è introdotto nel livello [flex], rivolto agli utenti esperti che necessitano di una messa a punto.
Spiegando la filosofia alla base del rilascio aperto, BFL ha osservato:”Crediamo che l’intelligenza visiva dovrebbe essere modellata da ricercatori, creativi e sviluppatori ovunque, non solo da pochi.”
I pesi di rilascio contrastano nettamente con il lancio di Gemini 3 Pro Image e il modello di generazione di immagini di OpenAI, che funzionano in modo altrettanto completo. sistemi chiusi. Rilasciando i pesi, BFL scommette che l’ottimizzazione guidata dalla comunità accelererà lo sviluppo del modello più velocemente della sola ricerca e sviluppo interna.
Gli sviluppatori possono accedere immediatamente al modello tramite piattaforme partner tra cui Fal, Replicate e TogetherAI.
Contesto di mercato: la guerra del”ragionamento”
Arrivato appena cinque giorni dopo la presentazione di Gemini 3 Pro Image da parte di Google, il lancio evidenzia un cambiamento a livello di settore. Entrambe le versioni pubblicizzano capacità di”ragionamento”, suggerendo che i fornitori stanno facendo a gara per rendere i loro strumenti sufficientemente affidabili per l’uso aziendale piuttosto che per la semplice esplorazione creativa.
Il recente accordo da 140 milioni di dollari di Meta con BFL convalida la tecnologia della startup come una valida alternativa allo sviluppo interno. Anche i giganti della tecnologia con vaste risorse hanno difficoltà a tenere il passo dei laboratori specializzati nello spazio dell’intelligenza artificiale generativa.
BFL prevede che questo cambiamento avrà effetti duraturi, affermando:”Cambiando radicalmente l’economia della generazione, FLUX.2 diventerà una parte indispensabile della nostra infrastruttura creativa.”