Black Forest Labs (BFL) は火曜日に大規模な FLUX.2 モデル ファミリをリリースしました。 Mistral の Vision-Language Model (VLM) を統合するこのスタートアップは、ピクセルの確率だけでなく、現実世界のロジックで画像を基礎づけることを目指しています。
320 億のパラメーター アーキテクチャが消費者向けハードウェアを破壊するのを防ぐために、BFL は NVIDIA と提携して、GeForce RTX グラフィックス プロセッシング ユニット (GPU) 用のモデルを最適化しました。新しい量子化技術により、ビデオ ランダム アクセス メモリ (VRAM) の使用量が 40% 削減され、大規模なシステムをローカルで実行できるようになりました。
Google の Gemini 3 Pro Image の発売からわずか数日後にリリースされたこのリリースは、クローズド エコシステムへの移行に挑戦しています。 BFL は、コミュニティのイノベーションが企業の壁に囲まれた庭園を上回ることに賭けて、開発者向けにオープン ウェイトをリリースしています。
アーキテクチャの変化: 推論の台頭
ピクセル確率のみに依存する業界標準から脱却し、Black Forest Labs (BFL) は主力モデルを根本的に再設計しました。 FLUX.2 は、整流変圧器とビジョン言語モデル (VLM) を融合するハイブリッド設計を採用しています。これは、論理的な一貫性を保って発電出力を接地することを目的とした動きです。
「Mistral-3」を統合することにより、240 億のパラメータVLM を使用すると、システムは従来の拡散モデルに欠けていた「世界知識」の層を獲得します。
VLM の統合により、モデルはピクセルをレンダリングする前に空間関係と物理的特性を理解できるようになり、AI が物理的に不可能なオブジェクトや照明を生成する「幻覚」問題に直接対処できます。
この移行の背後にある実際的な意図について、同社は次のように述べています。「FLUX.2 は、デモやパーティーだけでなく、現実世界のクリエイティブなワークフロー向けに設計されています。」”
「FLUX.2 は、最大 10 個の画像を新しい出力に結合する機能、最大 4MP の出力解像度、プロンプト遵守と世界知識の大幅な改善、大幅に改善されたタイポグラフィを備えたマルチリファレンス サポートを提供するようになりました。」
FLUX.2 が登場しました – これまでで最も有能な画像生成および編集モデルです。
マルチリファレンス。 4MP。生産準備完了。オープンウェイト。
新しいものへ。 pic.twitter.com/wynj1vfYTV
— Black Forest Labs (@bfl_ml) 2025 年 11 月 25 日
このようなアーキテクチャの変更により、以前は信頼性が低かった機能が有効になります。最大出力解像度は 4 メガピクセル (約 2048×2048) に増加しました。これは、単なるソーシャル メディアの利用ではなく、プロの印刷および高解像度ディスプレイのワークフローをターゲットにした仕様です。
新しい「マルチリファレンス コントロール」機能により、ユーザーは最大 10 個の個別のリファレンス画像を同時に入力できます。商用絵コンテ用に設計されたこの機能は、キャンペーン アセット作成の重要な要件である複数の世代にわたる厳密なスタイルとキャラクターの一貫性を維持します。
FLUX.2 には、学習性、品質、圧縮のバランスを取るように設計された新しい変分オートエンコーダー (VAE) が含まれており、多様な展開シナリオに合わせてモデルをさらに最適化します。
タイポグラフィ機能も全面的に見直しられました。以前の弱点を徹底的に見直し、このシステムは複雑なテキスト文字列とレイアウトを確実にレンダリングし、文字化けや意味不明なレタリングが頻繁に発生する前世代モデルの悪名高い欠陥をターゲットにしています。
ハードウェア ボトルネックと NVIDIA による修正
このような複雑なシステムに固有のハードウェア制限に対処するには、専用のエンジニアリング作業が必要でした。実質 320 億個のパラメータを考慮すると、フル モデルは量子化されていない状態でロードするために 90 GB の VRAM を必要とします。
このような要件により、このモデルは、24 GB NVIDIA GeForce RTX 4090 のような最も高価なコンシューマ ハードウェアの機能を大きく超えています。通常、モデルをローカルで実行するにはエンタープライズ グレードのサーバー クラスターが必要となり、アクセスできるのは潜在的なユーザー ベースの一部に制限されます。
これを解決するには、 BFL は NVIDIA と直接提携し、FP8 (8 ビット浮動小数点) 量子化を実装しました。量子化により、「同等の品質」を維持しながら VRAM 要件が 40% 削減され、このモデルはハイエンドの愛好家ワークステーションに手の届くものになります。 NVIDIA は次のように書いています。
「新しい FLUX.2 モデルは印象的ですが、要求も非常に厳しいです。完全にロードするには 90 GB VRAM を必要とする、驚異的な 320 億パラメータのモデルを実行します。」
「FLUX.2 モデルのアクセシビリティを拡大するために、NVIDIA と Black Forest Labs は協力してモデルを FP8 に量子化し、同等の品質で VRAM 要件を 40% 削減しました。」
まだ十分な VRAM が不足しているユーザーのために、ComfyUI とのコラボレーションにより、新しい「ウェイト ストリーミング」機能が導入されました。ウェイト ストリーミングにより、モデルの一部を低速のシステム RAM に動的にオフロードでき、推論速度と引き換えに制約のあるハードウェア上でモデルを実行できます。
将来のアクセシビリティも計画されています。アーキテクチャのサイズを絞り込んだバージョンとして説明される「Klein」モデルは、低スペックのハードウェアをターゲットに開発中ですが、具体的なリリース日はまだ未確認です。
API の価格は積極的に設定されており、イメージあたり $0.01 ~ $0.04 と推定されています。この構造は競合他社を圧倒し、大手テクノロジー企業にとって「購入 vs 構築」のジレンマに挑戦します。大手テクノロジー企業は、独自のモデルを開発するか、優れた外部テクノロジーのライセンスを取得するかを決定する必要があります。
オープン ウェイト対ウォールド ガーデン
競合他社が自社のモデルを厳しく管理された API の背後にロックしている一方で、BFL はオープン アクセスを含む段階的なリリース戦略を維持しています。 FLUX.2 開発は、非営利使用および研究向けにオープン ウェイトを提供し、コミュニティがコア テクノロジーを検査して構築できるようにします。
商用ユーザーは、マネージド インフラストラクチャとサービス レベル アグリーメントを提供する API のみの [プロ] および [フレックス] レベルに誘導されます。ステップ数やガイダンススケールなどの生成パラメータのきめ細かな制御が [flex] 層に導入され、微調整が必要なパワー ユーザーに対応します。
オープン リリースの背後にある哲学を説明し、BFL は次のように述べました。「視覚的知性は、一部の研究者、クリエイター、開発者だけでなく、あらゆる場所の研究者、クリエイター、開発者によって形成されるべきだと考えています。」
ウェイトのリリースは、Gemini 3 Pro Image の発売や OpenAI の画像生成モデルとははっきりと対照的です。完全に閉じたシステムとして動作します。 BFL は、重みを公開することで、コミュニティ主導の最適化により、内部の研究開発だけよりもモデルの開発が加速されることに賭けています。
開発者は、Fal、Replicate、TogetterAI などのパートナー プラットフォームを介してモデルにすぐにアクセスできます。
市場の状況: 「推論」戦争
Google が Gemini 3 Pro Image を発表してからわずか 5 日後に発表されたこの発表は、業界全体の転換点を浮き彫りにしています。どちらのリリースも「推論」機能を宣伝しており、ベンダーが自社のツールを単なるクリエイティブな探求ではなく、エンタープライズ用途に十分信頼できるものにするために競争していることを示唆しています。
Meta が最近報告した BFL との 1 億 4,000 万ドルの契約は、このスタートアップのテクノロジーが社内開発に代わる実行可能な代替手段であることを証明しています。膨大なリソースを持つテクノロジー大手でさえ、生成 AI 分野で専門研究所のペースに合わせるのは難しいと感じています。
BFL は、この変化が永続的な影響を与えると予測し、「生成の経済性を根本的に変えることにより、FLUX.2 は私たちのクリエイティブ インフラストラクチャに不可欠な部分になるでしょう。」