Black Forest Labs (BFL) 於週二發布了其龐大的 FLUX.2 模型系列。該初創公司集成了 Mistral 的視覺語言模型 (VLM),旨在根據現實世界的邏輯來構建圖像,而不僅僅是像素概率。

為了防止 320 億參數架構壓垮消費者硬件,BFL 與 NVIDIA 合作,優化 GeForce RTX 圖形處理單元 (GPU) 的模型。新的量化技術可將視頻隨機存取存儲器 (VRAM) 使用量減少 40%,從而允許大型系統在本地運行。

在 Google Gemini 3 Pro Image 發布幾天后,該版本就向封閉生態系統的轉變提出了挑戰。 BFL 正在為開發商發布開放權重,押注社區創新將超過企業圍牆花園。

架構轉變:推理的興起

Black Forest Labs (BFL) 打破了僅依賴像素概率的行業標準,從根本上重新構建了其旗艦模型。 FLUX.2採用混合設計,將整流流變壓器與視覺語言模型(VLM)融合在一起,此舉旨在使生成輸出具有邏輯一致性。

通過集成“Mistral-3″,一個240億參數VLM,系統獲得了傳統擴散模型所缺乏的一層“世界知識”。

VLM 的集成使模型能夠在渲染像素之前了解空間關係和物理屬性,直接解決人工智能生成物理上不可能的物體或照明的“幻覺”問題。

在描述這一轉變背後的實際意圖時,該公司表示:“FLUX.2 是為現實世界的創意工作流程而設計的,而不僅僅是演示或派對技巧。”

“FLUX.2 現在提供了多參考支持,能夠將多達 10 個圖像組合成新穎的輸出,輸出分辨率高達 4MP,顯著提高提示依從性和世界知識,並顯著改進排版。”

FLUX.2 就在這裡-我們迄今為止最強大的圖像生成和編輯模型。

多參考。 4MP。生產就緒。打開權重。

進入新的。 pic.twitter.com/wynj1vfYTV

—黑森林實驗室 (@bfl_ml) 2025 年 11 月 25 日

此類架構更改啟用了以前不可靠的功能。最大輸出分辨率已提高至 4 兆像素(約 2048×2048),該規格針對專業打印和高分辨率顯示工作流程,而不僅僅是社交媒體消費。

新的“多參考控制”功能允許用戶同時輸入最多 10 個不同的參考圖像。該功能專為商業故事板而設計,可在多代之間保持嚴格的風格和字符一致性,這是活動資產創建的關鍵要求。

FLUX.2 包括一個新的變分自動編碼器 (VAE),旨在平衡可學習性、質量和壓縮,進一步優化模型以適應不同的部署場景。

排版功能也進行了徹底修改。該系統克服了以前的弱點,能夠可靠地渲染複雜的文本字符串和佈局,針對上一代模型經常產生亂碼或無意義字體的臭名昭著的缺陷。

硬件瓶頸和 NVIDIA 的修復

解決如此復雜的系統固有的硬件限制需要專門的工程工作。整個模型擁有 320 億個參數,需要 90GB 的 VRAM 才能在其未量化狀態下加載。

這樣的要求使該模型遠遠超出了最昂貴的消費類硬件(例如 24GB NVIDIA GeForce RTX 4090)的能力。在本地運行該模型通常需要企業級服務器集群,從而限制了一小部分潛在用戶群的可訪問性。

為了解決這個問題,BFL 直接與 NVIDIA 合作來實現 FP8(8 位浮點)量化。量化將 VRAM 要求降低了 40%,同時保持“可比較的質量”,使該模型能夠進入高端發燒友工作站的範圍。 NVIDIA 寫道:

“新的 FLUX.2 模型令人印象深刻,但要求也相當高。它們運行一個驚人的 320 億參數模型,需要 90GB VRAM 才能完全加載。” […] “為了擴大 FLUX.2 模型的可訪問性,NVIDIA 和 Black Forest Labs 合作將該模型量化為 FP8,在同等質量下將 VRAM 要求降低了 40%。”

對於仍然缺乏足夠 VRAM 的用戶,與 ComfyUI 合作推出了新的“權重流”功能。權重流允許將部分模型動態卸載到較慢的系統 RAM,以犧牲推理速度換取在受限硬件上運行模型的能力。

未來的可訪問性也在計劃之中。 “Klein”模型被描述為該架構的尺寸蒸餾版本,正在開發中,以針對較低規格的硬件,但具體發布日期尚未確認。

API 的定價定位激進,估計在每張圖像 0.01 美元到 0.04 美元之間。該結構削弱了競爭對手,挑戰了大型科技公司的“購買與構建”困境,這些公司必須決定是開發自己的模型還是許可高級外部技術。

開放權重與圍牆花園

雖然競爭對手將其模型鎖定在嚴格控制的 API 後面,但 BFL 正在維持包括開放訪問在內的分層發布策略。 FLUX.2 dev 為非商業使用和研究提供開放權重,允許社區檢查和構建核心技術。

商業用戶被定向到僅 API [pro] 和 [flex] 層,這些層提供託管基礎設施和服務級別協議。 [flex] 層引入了對步數和引導比例等生成參數的精細控制,以滿足需要微調的高級用戶的需求。

在解釋開放發布背後的理念時,BFL 指出:“我們相信視覺智能應該由各地的研究人員、創意人員和開發人員來塑造,而不僅僅是少數人。”

發布權重與 Gemini 3 Pro Image 的發布和 OpenAI 的圖像生成模型形成鮮明對比,後者運行完全一樣。封閉系統。通過發布權重,BFL 相信社區驅動的優化將比單獨內部研發更快地加速模型的開發。

開發人員可以立即通過包括 Fal、Replicate 和 TogetherAI 在內的合作夥伴平台訪問該模型。 

市場背景:“推理”戰爭

谷歌發布 Gemini 3 Pro Image 僅僅五天后,此次發布凸顯了整個行業的轉型。這兩個版本都宣揚“推理”功能,表明供應商正在競相讓他們的工具足夠可靠,供企業使用,而不僅僅是創造性探索。

據報導,Meta 最近與 BFL 達成了 1.4 億美元的交易,這證實了這家初創公司的技術是內部開發的可行替代方案。即使是擁有大量資源的科技巨頭也發現很難跟上生成人工智能領域專業實驗室的步伐。

BFL 預測這種轉變將產生持久影響,並表示:“通過徹底改變發電經濟,FLUX.2 將成為我們創意基礎設施不可或缺的一部分。”

Categories: IT Info