Black Forest Labs (BFL) đã phát hành dòng mô hình FLUX.2 khổng lồ vào thứ Ba. Tích hợp Mô hình ngôn ngữ tầm nhìn (VLM) từ Mistral, công ty khởi nghiệp này đặt mục tiêu tạo nền tảng cho hình ảnh theo logic trong thế giới thực thay vì chỉ xác suất pixel.

Để ngăn kiến ​​trúc 32 tỷ tham số phá hỏng phần cứng của người tiêu dùng, BFL đã hợp tác với NVIDIA để tối ưu hóa các mô hình cho Bộ xử lý đồ họa GeForce RTX (GPU). Kỹ thuật lượng tử hóa mới giúp giảm 40% mức sử dụng Bộ nhớ truy cập ngẫu nhiên video (VRAM), cho phép hệ thống lớn chạy cục bộ.

Ra mắt chỉ vài ngày sau khi ra mắt Gemini 3 Pro Image của Google, bản phát hành này thách thức sự chuyển đổi sang các hệ sinh thái khép kín. BFL đang đưa ra các trọng số mở dành cho các nhà phát triển, đặt cược rằng sự đổi mới của cộng đồng sẽ vượt xa các khu vườn có tường bao quanh của công ty.

Sự thay đổi kiến trúc: Sự trỗi dậy của lý luận

Bứt phá khỏi tiêu chuẩn ngành chỉ dựa vào xác suất pixel, Black Forest Labs (BFL) về cơ bản đã tái kiến trúc lại mô hình hàng đầu của mình. FLUX.2 áp dụng một thiết kế kết hợp kết hợp một máy biến dòng đã được chỉnh lưu với Mô hình ngôn ngữ tầm nhìn (VLM), một động thái nhằm mục đích tạo ra các đầu ra có tính nhất quán về mặt logic.

Bằng cách tích hợp “Mistral-3,” một 24 tỷ tham số VLM, hệ thống sẽ có được một lớp “thế giới” kiến thức”mà các mô hình khuếch tán truyền thống thiếu.

Việc tích hợp VLM cho phép mô hình hiểu các mối quan hệ không gian và tính chất vật lý trước khi hiển thị pixel, giải quyết trực tiếp vấn đề”ảo giác”trong đó AI tạo ra các vật thể hoặc ánh sáng không thể thực hiện được.

Mô tả mục đích thực tế đằng sau sự thay đổi này, công ty cho biết: “FLUX.2 được thiết kế cho quy trình làm việc sáng tạo trong thế giới thực, không chỉ cho các bản trình diễn hay thủ thuật tiệc tùng.”

“FLUX.2 hiện cung cấp hỗ trợ đa tham chiếu, với khả năng kết hợp tối đa 10 hình ảnh thành một đầu ra mới, độ phân giải đầu ra lên tới 4MP, tuân thủ nhanh chóng và kiến thức thế giới tốt hơn đáng kể cũng như kiểu chữ được cải thiện đáng kể.”

FLUX.2 đã ra đời – mô hình chỉnh sửa và tạo hình ảnh có khả năng nhất của chúng tôi cho đến nay.

Đa tham khảo. 4MP. Sẵn sàng sản xuất. Mở tạ.

Vào cái mới. pic.twitter.com/wynj1vfYTV

— Phòng thí nghiệm Rừng Đen (@bfl_ml) Tháng 11 Ngày 25 tháng 1 năm 2025

Những thay đổi về kiến trúc như vậy sẽ tạo ra những khả năng mà trước đây không đáng tin cậy. Độ phân giải đầu ra tối đa đã được tăng lên 4 megapixel (khoảng 2048×2048), một thông số kỹ thuật nhắm đến các quy trình in ấn chuyên nghiệp và hiển thị độ phân giải cao thay vì chỉ sử dụng trên mạng xã hội.

Tính năng “Điều khiển đa tham chiếu” mới cho phép người dùng nhập đồng thời tối đa 10 hình ảnh tham chiếu riêng biệt. Được thiết kế để tạo kịch bản phân cảnh thương mại, tính năng này duy trì tính nhất quán về phong cách và ký tự nghiêm ngặt qua nhiều thế hệ, một yêu cầu quan trọng để tạo nội dung chiến dịch.

FLUX.2 bao gồm Bộ mã hóa tự động biến thể (VAE) mới được thiết kế để cân bằng khả năng học hỏi, chất lượng và khả năng nén, tối ưu hóa hơn nữa mô hình cho các tình huống triển khai đa dạng.

Khả năng sắp chữ cũng đã được cải tiến. Khắc phục những điểm yếu trước đây, hệ thống hiển thị các chuỗi văn bản và bố cục phức tạp một cách đáng tin cậy, nhắm đến lỗ hổng khét tiếng của các mẫu thế hệ trước vốn thường tạo ra các chữ cái bị cắt xén hoặc vô nghĩa.

Nút thắt cổ chai phần cứng & cách khắc phục của NVIDIA

Việc giải quyết các hạn chế phần cứng vốn có trong một hệ thống phức tạp như vậy đòi hỏi nỗ lực kỹ thuật chuyên tâm. Với trọng lượng đáng kể là 32 tỷ thông số, mô hình đầy đủ cần 90GB VRAM để tải ở trạng thái không bị lượng tử hóa.

Những yêu cầu như vậy khiến mô hình nằm ngoài khả năng của ngay cả phần cứng tiêu dùng đắt tiền nhất, chẳng hạn như NVIDIA GeForce RTX 4090 24GB. Việc chạy mô hình cục bộ thường yêu cầu cụm máy chủ cấp doanh nghiệp, hạn chế khả năng tiếp cận của mô hình đối với một phần nhỏ cơ sở người dùng tiềm năng.

Để giải quyết vấn đề này, BFL hợp tác trực tiếp với NVIDIA để triển khai lượng tử hóa FP8 (dấu phẩy động 8 bit). Lượng tử hóa giúp giảm 40% yêu cầu VRAM trong khi vẫn duy trì “chất lượng tương đương”, đưa model này đến gần với các máy trạm dành cho người đam mê cao cấp. NVIDIA viết:

“Các mẫu FLUX.2 mới rất ấn tượng nhưng cũng có yêu cầu khá cao. Chúng chạy một mẫu có 32 tỷ thông số đáng kinh ngạc, cần 90GB VRAM để tải hoàn toàn.”[…] “Để mở rộng khả năng tiếp cận mô hình FLUX.2, NVIDIA và Black Forest Labs đã hợp tác để lượng tử hóa mô hình thành FP8 — giảm 40% yêu cầu VRAM với chất lượng tương đương.”

Đối với những người dùng vẫn chưa có đủ VRAM, việc cộng tác với ComfyUI sẽ giới thiệu một tính năng”truyền trọng lượng”mới. Truyền tải trọng lượng cho phép các bộ phận của mô hình được tự động giảm tải sang RAM hệ thống chậm hơn, đánh đổi tốc độ suy luận để có khả năng chạy mô hình trên phần cứng hạn chế.

Khả năng truy cập trong tương lai cũng đã được lên kế hoạch. Mô hình “Klein”, được mô tả là phiên bản kiến ​​trúc được chắt lọc về kích thước, đang được phát triển để hướng tới phần cứng có thông số kỹ thuật thấp hơn, mặc dù ngày phát hành cụ thể vẫn chưa được xác nhận.

Giá cho API được điều chỉnh mạnh mẽ, ước tính trong khoảng 0,01 USD đến 0,04 USD cho mỗi hình ảnh. Hạ gục đối thủ cạnh tranh, cấu trúc này thách thức tình thế tiến thoái lưỡng nan “mua và xây dựng” đối với các công ty công nghệ lớn vốn phải quyết định xem nên phát triển mô hình của riêng họ hay cấp phép cho công nghệ bên ngoài vượt trội.

Open Weights so với Walled Gardens

Trong khi các đối thủ cạnh tranh khóa mô hình của họ bằng các API được kiểm soát chặt chẽ, BFL đang duy trì chiến lược phát hành theo cấp bậc bao gồm quyền truy cập mở. Nhà phát triển FLUX.2 cung cấp các trọng số mở cho mục đích nghiên cứu và sử dụng phi thương mại, cho phép cộng đồng kiểm tra và xây dựng dựa trên công nghệ cốt lõi.

Người dùng thương mại được chuyển hướng đến các cấp độ [pro] và [flex] chỉ dành cho API, cung cấp các thỏa thuận cấp độ dịch vụ và cơ sở hạ tầng được quản lý. Kiểm soát chi tiết đối với các thông số tạo, chẳng hạn như số bước và thang hướng dẫn, được giới thiệu ở cấp [flex], phục vụ cho những người dùng thành thạo yêu cầu tinh chỉnh.

Giải thích triết lý đằng sau bản phát hành mở, BFL lưu ý: “Chúng tôi tin rằng trí thông minh thị giác nên được định hình bởi các nhà nghiên cứu, nhà sáng tạo và nhà phát triển ở khắp mọi nơi chứ không chỉ một số ít.”

Việc giải phóng trọng lượng trái ngược hoàn toàn với việc ra mắt Hình ảnh Gemini 3 Pro và mô hình tạo hình ảnh của OpenAI, vốn hoạt động như các hệ thống khép kín hoàn toàn. Bằng cách giảm bớt các trọng số, BFL đang đặt cược rằng việc tối ưu hóa dựa vào cộng đồng sẽ đẩy nhanh quá trình phát triển của mô hình nhanh hơn so với chỉ riêng hoạt động R&D nội bộ.

Các nhà phát triển có thể truy cập mô hình này thông qua các nền tảng đối tác bao gồm Fal, Replicate và TogetherAI ngay lập tức. 

Bối cảnh thị trường: Cuộc chiến’Lý luận’

Diễn ra chỉ 5 ngày sau khi Google công bố Gemini 3 Pro Image, buổi ra mắt đánh dấu một bước ngoặt toàn ngành. Cả hai đều tung ra các khả năng “lý luận”, cho thấy các nhà cung cấp đang chạy đua để làm cho công cụ của họ đủ tin cậy để doanh nghiệp sử dụng thay vì chỉ khám phá sáng tạo.

Thỏa thuận trị giá 140 triệu USD gần đây của Meta với BFL đã xác nhận công nghệ của công ty khởi nghiệp này như một giải pháp thay thế khả thi cho hoạt động phát triển nội bộ. Ngay cả những gã khổng lồ công nghệ với nguồn tài nguyên khổng lồ cũng gặp khó khăn trong việc bắt kịp tốc độ của các phòng thí nghiệm chuyên biệt trong không gian AI sáng tạo.

BFL dự đoán sự thay đổi này sẽ có tác động lâu dài. Ông cho biết: “Bằng cách thay đổi hoàn toàn nền kinh tế sản xuất, FLUX.2 sẽ trở thành một phần không thể thiếu trong cơ sở hạ tầng sáng tạo của chúng ta”.

Categories: IT Info