Black Forest Labs (BFL) telah merilis keluarga model FLUX.2 yang sangat besar pada hari Selasa. Mengintegrasikan Vision-Language Model (VLM) dari Mistral, startup ini bertujuan untuk mendasarkan gambar pada logika dunia nyata, bukan sekadar probabilitas piksel.

Untuk mencegah arsitektur parameter 32 miliar menghancurkan perangkat keras konsumen, BFL bermitra dengan NVIDIA untuk mengoptimalkan model untuk Graphics Processing Unit (GPU) GeForce RTX. Teknik kuantisasi baru mengurangi penggunaan Video Random Access Memory (VRAM) sebesar 40%, sehingga memungkinkan sistem besar berjalan secara lokal.

Diluncurkan hanya beberapa hari setelah peluncuran Google Gemini 3 Pro Image, rilis ini menantang peralihan ke ekosistem tertutup. BFL merilis peluang terbuka bagi pengembang, dengan harapan bahwa inovasi komunitas akan melampaui taman perusahaan.

Pergeseran Arsitektur: Bangkitnya Penalaran

Mendobrak standar industri yang hanya mengandalkan probabilitas piksel, Black Forest Labs (BFL) secara mendasar telah merancang ulang model andalannya. FLUX.2 mengadopsi desain hibrid yang menggabungkan transformator aliran yang diperbaiki dengan Vision-Language Model (VLM), sebuah langkah yang dimaksudkan untuk menghasilkan keluaran generatif dalam konsistensi logis.

Dengan mengintegrasikan “Mistral-3,”sebuah parameter VLM 24 miliar, sistem memperoleh lapisan “pengetahuan dunia”yang tidak dimiliki model difusi tradisional.

Integrasi VLM memungkinkan model memahami hubungan spasial dan properti fisik sebelum merender piksel, yang secara langsung mengatasi masalah”halusinasi”saat AI menghasilkan objek atau pencahayaan yang secara fisik tidak mungkin dilakukan.

Menjelaskan maksud praktis di balik perubahan ini, perusahaan tersebut menyatakan: “FLUX.2 dirancang untuk alur kerja kreatif di dunia nyata, bukan sekadar demo atau trik pesta.”

“FLUX.2 kini menyediakan dukungan multi-referensi, dengan kemampuan untuk menggabungkan hingga 10 gambar menjadi keluaran baru, resolusi keluaran hingga 4MP, kepatuhan cepat dan pengetahuan dunia yang jauh lebih baik, dan tipografi yang ditingkatkan secara signifikan.”

FLUX.2 telah hadir – model pembuatan & pengeditan gambar kami yang paling mumpuni hingga saat ini.

Multi-referensi. 4MP. Siap produksi. Buka beban.

Menuju yang baru. pic.twitter.com/wynj1vfYTV

— Lab Hutan Hitam (@bfl_ml) 25 November 2025

Perubahan arsitektur seperti itu memungkinkan kemampuan yang sebelumnya tidak dapat diandalkan. Resolusi keluaran maksimum telah ditingkatkan menjadi 4 megapiksel (kira-kira 2048×2048), sebuah spesifikasi yang menargetkan alur kerja pencetakan profesional dan tampilan resolusi tinggi, bukan sekadar konsumsi media sosial.

Fitur “Kontrol Multi-Referensi”baru memungkinkan pengguna memasukkan hingga 10 gambar referensi berbeda secara bersamaan. Dirancang untuk storyboard komersial, fitur ini mempertahankan konsistensi gaya dan karakter yang ketat di beberapa generasi, yang merupakan persyaratan penting untuk pembuatan aset kampanye.

FLUX.2 menyertakan Variational Autoencoder (VAE) baru yang dirancang untuk menyeimbangkan kemampuan belajar, kualitas, dan kompresi, sehingga lebih mengoptimalkan model untuk beragam skenario penerapan.

Kemampuan tipografi juga telah dirombak. Dengan merombak kelemahan sebelumnya, sistem ini merender string teks dan tata letak yang kompleks dengan andal, menargetkan kelemahan terkenal pada model generasi sebelumnya yang sering kali menghasilkan tulisan yang kacau atau tidak masuk akal.

Hambatan Perangkat Keras & Perbaikan dari NVIDIA

Mengatasi keterbatasan perangkat keras yang melekat pada sistem yang begitu rumit memerlukan upaya rekayasa khusus. Dengan bobot 32 miliar parameter, model lengkap memerlukan VRAM sebesar 90 GB untuk memuat dalam keadaan tidak terkuantisasi.

Persyaratan tersebut menempatkan model jauh di luar kemampuan perangkat keras konsumen yang paling mahal sekalipun, seperti NVIDIA GeForce RTX 4090 24 GB. Menjalankan model secara lokal biasanya memerlukan kluster server tingkat perusahaan, sehingga membatasi aksesibilitasnya ke sebagian kecil dari basis pengguna potensial.

Untuk mengatasi hal ini, BFL bermitra langsung dengan NVIDIA untuk mengimplementasikan kuantisasi FP8 (floating point 8-bit). Kuantisasi mengurangi kebutuhan VRAM sebesar 40% sambil mempertahankan “kualitas yang sebanding”, sehingga model ini dapat dijangkau oleh workstation antusias kelas atas. NVIDIA menulis:

“Model FLUX.2 baru ini mengesankan, namun juga cukup menuntut. Model tersebut menjalankan model dengan 32 miliar parameter yang memerlukan VRAM 90 GB untuk memuat sepenuhnya.”[…] “Untuk memperluas aksesibilitas model FLUX.2, NVIDIA dan Black Forest Labs berkolaborasi untuk mengkuantisasi model menjadi FP8 — mengurangi persyaratan VRAM sebesar 40% dengan kualitas yang sebanding.”

Bagi pengguna yang masih kekurangan VRAM yang memadai, kolaborasi dengan ComfyUI memperkenalkan fitur “weight streaming”baru. Weight streaming memungkinkan bagian-bagian model dipindahkan secara dinamis ke RAM sistem yang lebih lambat, menukar kecepatan inferensi dengan kemampuan menjalankan model pada perangkat keras yang terbatas.

Aksesibilitas di masa depan juga direncanakan. Model “Klein”, yang digambarkan sebagai versi arsitektur yang disaring, sedang dalam pengembangan untuk menargetkan perangkat keras dengan spesifikasi lebih rendah, meskipun tanggal rilis spesifiknya masih belum dikonfirmasi.

Harga untuk API diposisikan secara agresif, diperkirakan antara $0,01 dan $0,04 per gambar. Dengan meremehkan pesaing, struktur ini menantang dilema “beli vs. membangun”bagi perusahaan teknologi besar yang harus memutuskan apakah akan mengembangkan model mereka sendiri atau melisensikan teknologi eksternal yang unggul.

Open Weights vs. The Walled Gardens

Sementara pesaing mengunci model mereka di balik API yang dikontrol secara ketat, BFL mempertahankan strategi rilis berjenjang yang mencakup akses terbuka. Pengembang FLUX.2 menawarkan bobot terbuka untuk penggunaan dan penelitian non-komersial, sehingga komunitas dapat memeriksa dan mengembangkan teknologi inti.

Pengguna komersial diarahkan ke tingkat [pro] dan [flex] khusus API, yang menawarkan infrastruktur terkelola dan perjanjian tingkat layanan. Kontrol terperinci atas parameter pembuatan, seperti jumlah langkah dan skala panduan, diperkenalkan di tingkat [fleksibel], yang melayani pengguna tingkat lanjut yang memerlukan penyesuaian.

Menjelaskan filosofi di balik rilis terbuka, BFL mencatat: “Kami percaya kecerdasan visual harus dibentuk oleh para peneliti, kreatif, dan pengembang di mana pun, bukan hanya beberapa orang.”

Melepaskan bobot sangat kontras dengan peluncuran Gemini 3 Pro Image dan model pembuatan gambar OpenAI, yang beroperasi secara tertutup sepenuhnya. sistem. Dengan merilis bobot tersebut, BFL bertaruh bahwa pengoptimalan berbasis komunitas akan mempercepat pengembangan model lebih cepat dibandingkan penelitian dan pengembangan internal saja.

Pengembang dapat segera mengakses model melalui platform mitra termasuk Fal, Replication, dan TogetherAI. 

Konteks Pasar: Perang’Penalaran’

Hanya lima hari setelah Google meluncurkan Gemini 3 Pro Image, peluncuran ini menyoroti poros industri secara keseluruhan. Kedua rilis tersebut memuji kemampuan “penalaran”, yang menunjukkan bahwa vendor sedang berlomba untuk membuat alat mereka cukup andal untuk penggunaan perusahaan, bukan sekadar eksplorasi kreatif.

Kesepakatan Meta yang baru-baru ini dilaporkan senilai $140 juta dengan BFL memvalidasi teknologi startup tersebut sebagai alternatif yang layak untuk pengembangan internal. Bahkan raksasa teknologi dengan sumber daya yang besar pun merasa kesulitan untuk menandingi kecepatan laboratorium khusus di bidang AI generatif.

BFL memperkirakan perubahan ini akan berdampak jangka panjang, dengan menyatakan: “Dengan mengubah perekonomian generasi secara radikal, FLUX.2 akan menjadi bagian tak terpisahkan dari infrastruktur kreatif kami.”

Categories: IT Info