Menantang obsesi industri terhadap jumlah parameter yang sangat besar, Tongyi Lab milik Alibaba telah merilis Z-Image-Turbo, model pembuatan gambar AI ringan yang dirancang untuk dijalankan pada perangkat keras konsumen.
Sistem dengan 6 miliar parameter ini mengklaim dapat menyamai kualitas komersial hanya dengan menggunakan 8 langkah inferensi.
Dengan memanfaatkan arsitektur Single-Stream Diffusion Transformer (S3-DiT) yang baru, model ini menyatukan pemrosesan teks dan gambar untuk memaksimalkan efisiensi. Pendekatan ini memungkinkan pembuatan fotorealistik pada kartu grafis gaming standar dengan Video Random Access Memory (VRAM) kurang dari 16 GB, sehingga mendemokratisasikan akses ke AI lokal dengan fidelitas tinggi.
Poros Efisiensi: 6B vs. Dunia
Melanggar tren industri model skala besar, rilis Alibaba menandai perubahan strategis yang tajam dari dogma “lebih besar lebih baik” yang mendominasi tahun 2025.
Sementara Black Forest Labs baru saja mendorong lingkup perangkat keras dengan meluncurkan FLUX.2, model parameter berkapasitas 32 miliar yang memerlukan 90 GB VRAM, Z-Image-Turbo menargetkan ujung spektrum yang berlawanan.
Memanfaatkan arsitektur parameter ramping 6 miliar, model ini dirancang khusus untuk perangkat keras tingkat konsumen. Persyaratan perangkat keras jauh lebih rendah, berjalan dengan nyaman pada kartu dengan VRAM kurang dari 16 GB.
Kecepatan inferensi adalah nilai jual utama, dengan model yang hanya memerlukan 8 Jumlah Evaluasi Fungsi (NFE) atau langkah.
Menyoroti metrik kinerja, Tongyi Lab menyatakan bahwa “Z-Image-Turbo menyamai atau melampaui pesaing terkemuka dengan hanya 8 NFE (Jumlah Evaluasi Fungsi). Ini menawarkan latensi inferensi sub-detik pada GPU H800 tingkat perusahaan dan cocok dengan perangkat konsumen 16G VRAM.”
Secara strategis, rilis ini menantang asumsi bahwa ukuran model adalah satu-satunya jalan menuju kualitas fotorealistik.
Di Balik Terpal: S3-DiT dan Decoupled-DMD
Tidak seperti pendekatan aliran ganda tradisional yang memproses modalitas secara terpisah, tim meninggalkan Multimodal Diffusion Transformer (MMDiT) tradisional yang digunakan sebelumnya Model Qwen-Image mencapai kinerja ini pada parameter 6B.
Secara arsitektur, sistem ini mengadopsi Transformator Difusi Aliran Tunggal (S3-DiT). Menurut repositori Z-Image:
“Model Z-Image mengadopsi arsitektur Transformator Difusi Aliran Tunggal. Desain ini menyatukan pemrosesan berbagai masukan bersyarat (seperti penyematan teks dan gambar) dengan gambar berisik yang laten ke dalam satu urutan, yang kemudian dimasukkan ke dalam tulang punggung Transformer.”
“Dalam penyiapan ini, teks, token semantik visual, dan token VAE gambar digabungkan pada tingkat urutan untuk berfungsi sebagai aliran masukan terpadu, memaksimalkan efisiensi parameter dibandingkan dengan pendekatan aliran ganda.”
Dengan menyatukan teks, token semantik visual, dan token VAE gambar ke dalam satu urutan, model ini memaksimalkan efisiensi parameter.
Menghilangkan redundansi yang ditemukan dalam pendekatan aliran ganda di mana teks dan gambar diproses secara terpisah sebelum fusi, desain menyederhanakan komputasi. Kecepatan ditingkatkan lebih lanjut dengan teknik distilasi baru yang disebut “DMD Terpisah”.
Dengan memisahkan augmentasi panduan dari pencocokan distribusi, algoritme memisahkan augmentasi Panduan Bebas Pengklasifikasi (CFG) dari proses pencocokan distribusi.
Memisahkan komponen-komponen ini memungkinkan model mempertahankan kepatuhan yang tinggi terhadap perintah bahkan pada jumlah langkah yang rendah, mencegah “runtuhnya” yang sering terlihat pada model yang distilasi.
Pasca pelatihan pengoptimalan melibatkan lapisan kompleksitas ketiga: Pembelajaran Penguatan. Menjelaskan sinergi antar teknik, lab tersebut mencatat bahwa “Wawasan inti kami di balik DMDR adalah bahwa Reinforcement Learning (RL) dan Distribution Matching Distillation (DMD) dapat diintegrasikan secara sinergis selama pasca-pelatihan model beberapa langkah.”
Menggabungkan RL dengan distilasi, pendekatan “DMDR”menyempurnakan keluaran estetika model setelah pelatihan awal.
Keunggulan Bilingual & Teks
Meskipun pesaing dari Barat sering kesulitan dengan tipografi non-Latin, Z-Image-Turbo secara asli dioptimalkan untuk rendering teks bilingual, menangani karakter China dan Inggris dalam gambar yang sama.
Ya! Z-Image tidak memerlukan paspor. ✈️
Dilatih terutama tentang data bilingual, namun hal ini tetap meningkatkan kefasihan dalam bahasa yang bahkan tidak kami ajarkan. Dan ya, tandanya dieja dengan benar (tidak ada coretan AI!).
Salam mana yang menjadi favorit Anda? pic.twitter.com/fGQndYDQXv— Lab Tongyi (@Ali_TongyiLab) 27 November 2025
Menargetkan pasar e-commerce dan periklanan global, kemampuan ini mengatasi kesenjangan utama yang menjadikan aset berbahasa campuran sebagai standar.
Dibangun berdasarkan fondasi yang diletakkan oleh model dasar Qwen-Image yang dirilis pada bulan Agustus, yang memelopori pembelajaran kurikulum untuk tipografi, model ini unggul dalam tata letak yang kompleks.
Menjelaskan proses pengoptimalan, para peneliti mengklaim bahwa “melalui pengoptimalan sistematis, ini membuktikan bahwa kinerja tingkat atas dapat dicapai tanpa bergantung pada ukuran model yang besar, memberikan hasil yang kuat dalam pembuatan fotorealistik dan rendering teks bilingual yang sebanding dengan model komersial terkemuka.”
Kasus penggunaan mencakup poster yang kompleks desain, pembuatan logo, dan materi pemasaran yang memerlukan hamparan teks yang dapat dibaca. Yang memperkuat klaim “generasi fotorealistik”adalah kemampuan untuk merender teks yang mengikuti pencahayaan dan tekstur pemandangan.
Menurut Evaluasi Preferensi Manusia berbasis Elo (di Alibaba AI Arena), Z-Image-Turbo menunjukkan kinerja yang sangat kompetitif dibandingkan pemimpin lainnya. model, sekaligus mencapai hasil tercanggih di antara model sumber terbuka.
5/10 Kualitas Fotorealistik yang Efisien: Z-Image-Turbo unggul dalam menghasilkan gambar dengan realisme tingkat fotografi, menunjukkan kontrol yang baik terhadap detail, pencahayaan, dan tekstur. Ini menyeimbangkan fidelitas tinggi dengan kualitas estetika yang kuat dalam komposisi dan suasana hati secara keseluruhan. Yang dihasilkan… pic.twitter.com/5sKZ1g0G0U
— Tongyi Lab (@Ali_TongyiLab) 27 November 2025
Konteks Pasar: Perlombaan Senjata Open Source
Dari segi waktu, peluncurannya menempatkan Alibaba dalam konfrontasi langsung dengan pesaing ekosistem terbuka dan tertutup. Gemini 3 Pro Image baru-baru ini diluncurkan sebagai alat tertutup yang berfokus pada perusahaan dengan alasan “Deep Think”.
Sebaliknya, Alibaba telah merilis Z-Image-Turbo di bawah lisensi Apache 2.0 yang permisif, yang memungkinkan penggunaan dan modifikasi komersial.
Dirancang untuk melemahkan API kepemilikan, strategi “bobot terbuka” ini memungkinkan pengembang untuk menghosting sendiri model tersebut. Turbo merupakan versi pertama dari rangkaian rilis yang direncanakan.
Varian masa depan mencakup “Z-Image-Base”untuk penyesuaian dan Qwen-Image-Edit untuk modifikasi berbasis instruksi.
Pada akhirnya, peluncuran ini menggarisbawahi persaingan AI yang semakin intensif antara raksasa teknologi AS dan Tiongkok, dengan efisiensi menjadi medan pertempuran baru dalam skala mentah.