Thách thức nỗi ám ảnh của ngành về số lượng tham số khổng lồ, Phòng thí nghiệm Tongyi của Alibaba đã phát hành Z-Image-Turbo, một mô hình tạo hình ảnh AI nhẹ được thiết kế để chạy trên phần cứng của người tiêu dùng.

Hệ thống 6 tỷ tham số tuyên bố sẽ phù hợp với chất lượng thương mại chỉ bằng 8 bước suy luận.

Bằng cách sử dụng kiến ​​trúc Biến áp khuếch tán một luồng (S3-DiT) mới, mô hình này hợp nhất quá trình xử lý văn bản và hình ảnh để tối đa hóa hiệu quả. Cách tiếp cận này cho phép tạo ra ảnh chân thực trên cạc đồ họa chơi game tiêu chuẩn có Bộ nhớ truy cập ngẫu nhiên video (VRAM) dưới 16GB, dân chủ hóa quyền truy cập vào AI cục bộ có độ chính xác cao.

Trục xoay hiệu quả: 6B so với Thế giới

Bứt phá khỏi xu hướng công nghiệp về các mô hình quy mô lớn, việc phát hành của Alibaba đánh dấu một bước chuyển hướng chiến lược rõ ràng khỏi giáo điều”càng lớn càng tốt”đã thống trị vào năm 2025.

Trong khi Black Forest Labs vừa đẩy mạnh giới hạn phần cứng bằng việc ra mắt FLUX.2, một mô hình tham số 32 tỷ yêu cầu 90GB VRAM, Z-Image-Turbo nhắm mục tiêu đến đầu đối diện của quang phổ.

Sử dụng kiến trúc 6 tỷ tham số tinh gọn, mô hình này được thiết kế dành riêng cho phần cứng cấp độ người tiêu dùng. Yêu cầu phần cứng thấp hơn đáng kể, chạy thoải mái trên thẻ có VRAM dưới 16GB.

Tốc độ suy luận là ưu điểm chính, với mô hình chỉ yêu cầu 8 Số lượng đánh giá chức năng (NFE) hoặc các bước.

Nêu bật các chỉ số hiệu suất, Tongyi Lab cho biết rằng “Z-Image-Turbo phù hợp hoặc vượt xa các đối thủ cạnh tranh hàng đầu chỉ với 8 NFE (Số lượng đánh giá chức năng). Nó cung cấp độ trễ suy luận dưới giây ở cấp doanh nghiệp. GPU H800 và vừa vặn thoải mái trong các thiết bị tiêu dùng 16G VRAM.”

Về mặt chiến lược, bản phát hành thách thức giả định rằng kích thước mô hình là con đường duy nhất dẫn đến chất lượng ảnh chân thực.

Nâng cao: S3-DiT và Depaird-DMD

Không giống như các phương pháp luồng kép truyền thống xử lý các phương thức riêng biệt, nhóm đã từ bỏ Bộ biến áp khuếch tán đa phương thức truyền thống (MMDiT) được sử dụng trong các mẫu Qwen-Image trước đây để đạt được hiệu suất này ở tham số 6B.

Về mặt kiến trúc, hệ thống sử dụng Biến áp khuếch tán một luồng (S3-DiT). Theo kho lưu trữ Z-Image:

“Mô hình Z-Image sử dụng kiến trúc Biến áp khuếch tán một luồng. Thiết kế này hợp nhất việc xử lý nhiều đầu vào có điều kiện khác nhau (như nhúng văn bản và hình ảnh) với hình ảnh nhiễu tiềm ẩn thành một chuỗi duy nhất, sau đó được đưa vào xương sống của Biến áp.”

“Trong thiết lập này, văn bản, hình ảnh mã thông báo ngữ nghĩa và mã thông báo VAE hình ảnh được ghép nối ở cấp trình tự để hoạt động như một luồng đầu vào thống nhất, tối đa hóa hiệu quả tham số so với các phương pháp luồng kép.”

Bằng cách hợp nhất văn bản, mã thông báo ngữ nghĩa trực quan và mã thông báo VAE hình ảnh thành một chuỗi duy nhất, mô hình sẽ tối đa hóa hiệu quả tham số.

Loại bỏ sự dư thừa có trong các phương pháp tiếp cận luồng kép trong đó văn bản và hình ảnh được xử lý riêng biệt trước khi hợp nhất, thiết kế sẽ tối ưu hóa tính toán. Tốc độ được nâng cao hơn nữa nhờ một kỹ thuật chưng cất mới có tên là “Tách rời-DMD”.

Bằng cách tách phần tăng cường hướng dẫn khỏi khớp phân phối, thuật toán sẽ tách phần tăng cường Hướng dẫn không cần phân loại (CFG) khỏi quy trình khớp phân phối.

Việc tách các thành phần này cho phép mô hình duy trì mức độ tuân thủ cao với các lời nhắc ngay cả ở số bước thấp, ngăn chặn tình trạng”sụp đổ”thường thấy trong các mô hình chưng cất.

Tối ưu hóa sau đào tạo bao gồm một lớp thứ ba độ phức tạp: Học tăng cường. Giải thích về sức mạnh tổng hợp giữa các kỹ thuật, phòng thí nghiệm lưu ý rằng “Cái nhìn sâu sắc cốt lõi của chúng tôi về DMDR là Học tăng cường (RL) và Chưng cất kết hợp phân phối (DMD) có thể được tích hợp hiệp lực trong quá trình đào tạo sau các mô hình vài bước”.

Kết hợp RL với quá trình chưng cất, phương pháp”DMDR”tinh chỉnh kết quả thẩm mỹ của mô hình sau quá trình đào tạo ban đầu.

Lợi ích song ngữ và văn bản

Trong khi các đối thủ cạnh tranh phương Tây thường gặp khó khăn với kiểu chữ không phải tiếng Latinh, Z-Image-Turbo vốn được tối ưu hóa để hiển thị văn bản song ngữ, xử lý cả ký tự tiếng Trung và tiếng Anh trong cùng một hình ảnh.

Có! Z-Image không cần hộ chiếu. ✈️
Được đào tạo chủ yếu về dữ liệu song ngữ, tuy nhiên, ở đây nó đã mang lại sự thành thạo không cần bàn cãi bằng những ngôn ngữ mà chúng tôi thậm chí không dạy nó. Và vâng, nó đánh vần chính xác các dấu hiệu (không có chữ viết nguệch ngoạc nào của AI!).
Bạn thích lời chào nào nhất? pic.twitter.com/fGQndYDQXv

— Phòng thí nghiệm Tongyi (@Ali_TongyiLab) Ngày 27 tháng 11 năm 2025

Nhắm mục tiêu vào thị trường quảng cáo và thương mại điện tử toàn cầu, khả năng này giải quyết một lỗ hổng quan trọng trong đó nội dung ngôn ngữ hỗn hợp là tiêu chuẩn.

Dựa trên nền tảng của mô hình nền tảng Qwen-Image được phát hành vào tháng 8, vốn đi tiên phong trong chương trình giảng dạy về kiểu chữ, mô hình này vượt trội trong các bố cục phức tạp.

Mô tả quá trình tối ưu hóa, các nhà nghiên cứu tuyên bố rằng “thông qua tối ưu hóa hệ thống, nó chứng minh rằng có thể đạt được hiệu suất cao nhất mà không cần dựa vào kích thước mô hình khổng lồ, mang lại kết quả mạnh mẽ trong việc tạo ảnh thực tế và hiển thị văn bản song ngữ tương đương với các mô hình thương mại hàng đầu.”

Các trường hợp sử dụng bao gồm thiết kế áp phích phức tạp, tạo biểu tượng và tài liệu tiếp thị yêu cầu lớp phủ văn bản dễ đọc. Củng cố cho tuyên bố “thế hệ ảnh thực” là khả năng hiển thị văn bản theo ánh sáng và kết cấu của cảnh.

Theo Đánh giá sở thích con người dựa trên Elo (trên Alibaba AI Arena), Z-Image-Turbo thể hiện hiệu suất cạnh tranh cao so với các mẫu hàng đầu khác, đồng thời đạt được thành tích kết quả tiên tiến nhất trong số các mô hình nguồn mở.

5/10 Chất lượng ảnh thực tế hiệu quả: Z-Image-Turbo vượt trội trong việc tạo ra hình ảnh có độ chân thực ở cấp độ nhiếp ảnh, thể hiện khả năng kiểm soát tốt các chi tiết, ánh sáng và kết cấu. Nó cân bằng độ trung thực cao với chất lượng thẩm mỹ cao trong bố cục và tâm trạng tổng thể. Đã tạo… pic.twitter.com/5sKZ1g0G0U

— Phòng thí nghiệm Tongyi (@Ali_TongyiLab) Ngày 27 tháng 11 năm 2025

Bối cảnh thị trường: Cuộc chạy đua vũ trang nguồn mở

Tính theo thời điểm, bản phát hành đặt Alibaba vào thế đối đầu trực tiếp với cả đối thủ hệ sinh thái mở và đóng. Gemini 3 Pro Image gần đây đã ra mắt dưới dạng một công cụ khép kín, tập trung vào doanh nghiệp với lý do”Suy nghĩ sâu”.

Ngược lại, Alibaba đã phát hành Z-Image-Turbo theo giấy phép Apache 2.0 dễ dãi, cho phép sử dụng và sửa đổi cho mục đích thương mại.

Được thiết kế để cắt giảm các API độc quyền, chiến lược”trọng lượng mở”này cho phép các nhà phát triển tự lưu trữ mô hình. Turbo chỉ là sản phẩm đầu tiên trong dòng sản phẩm phát hành theo kế hoạch.

Các biến thể trong tương lai bao gồm “Z-Image-Base”để tinh chỉnh và Qwen-Image-Edit để sửa đổi dựa trên hướng dẫn.

Cuối cùng, sự ra mắt này nhấn mạnh sự cạnh tranh AI ngày càng gay gắt giữa những gã khổng lồ công nghệ của Hoa Kỳ và Trung Quốc, trong đó hiệu suất trở thành chiến trường mới trên quy mô thô. 

Categories: IT Info