Raksasa teknologi Tiongkok Alibaba telah meningkatkan lomba pembuatan gambar AI, merilis model sumber terbuka baru yang kuat pada 4 Agustus yang unggul di salah satu tantangan terberat untuk AI: secara akurat memberikan teks.

Tersedia secara global pada platform seperti Hidging Face, qwen-image menunjukkan kemampuan canggih di dalam piala.

Dirilis di bawah lisensi APACHE 2.0 yang permisif, model ini secara langsung menantang sistem barat eksklusif dari Google dan OpenAi. Ini bertujuan untuk memberikan pengembang alternatif yang gratis dan kuat yang secara mulus mengintegrasikan teks yang rumit dengan kreasi visual, rintangan lama untuk model generatif.

Pada intinya, Qwen-Image adalah model parameter 20-biliar yang dibangun di atas transformasi multimodal mm. Untuk menginterpretasikan petunjuk pengguna yang kompleks, ia memanfaatkan model berbahasa qwen2.5-vl visi beku sebagai encoder kondisinya, pilihan desain yang memanfaatkan model yang sudah mahir dalam menyelaraskan data bahasa dan visual.

Arsitektur yang kuat ini didukung oleh apa yang dijelaskan tim Qwen dalam laporan teknisnya sebagai pipa data yang komprehensif. Model ini dilatih menggunakan pendekatan”pembelajaran kurikulum”, dimulai dengan render non-teks dasar sebelum secara bertahap menskalakan untuk menangani deskripsi tingkat paragraf yang kompleks.

Metode ini sangat penting untuk meningkatkan kemampuan rendering teks asalnya, terutama untuk menantang bahasa logografi seperti Cina. Untuk lebih meningkatkan penanganan karakter langka dan beragam font, tim mengembangkan pipa sintesis data multi-tahap untuk menghasilkan gambar pelatihan yang kaya teks berkualitas tinggi.

Inovasi utama untuk pengeditan gambar adalah mekanisme pengkodean ganda model. Untuk membuat perubahan, sistem memproses gambar input dalam dua cara: QWEN2.5-VL mengekstrak fitur semantik tingkat tinggi, sementara variasional autoencoder (VAE) menangkap detail rekonstruktif tingkat rendah, seperti yang dirinci dalam Laporan teknis resmi .

Kedua set fitur dimasukkan ke dalam mmdit, Model. VAE itu sendiri secara khusus disempurnakan pada kumpulan dokumen teks-berat seperti PDF dan poster untuk mempertajam rekonstruksi detail dan teks kecil.

Pada tolok ukur publik, pendekatan canggih ini telah menetapkan qwen-gambar sebagai pemain papan atas. Ini unggul pada evaluasi yang berfokus pada teks seperti LongText-Bench dan Benchmark Chineseword yang baru, mengungguli model yang ada dengan apa yang oleh penciptanya disebut sebagai”margin signifikan”. Kinerja ini memposisikannya sebagai penantang open-source yang kuat untuk sistem kepemilikan terkemuka.

di luar teks: mesin kreatif yang serba guna

Sementara rendering teksnya adalah fitur yang menonjol, qwen-image adalah alat fleksibel dan kuat untuk generasi gambar-purpose umum. Model ini menunjukkan kinerja cross-benchmark yang kuat, mendukung berbagai gaya artistik. Seperti yang dipamerkan dalam pengumuman resmi , ia dapat beradaptasi dengan capribilitas kreatif, yang menghasilkan segala hal dari adegan fotorealistik dan lukisan edisionis ke Aime Aime dan minimaling. Kuat, memungkinkan operasi canggih yang jauh melampaui penyesuaian sederhana. Laporan teknis menunjukkan model transfer gaya penanganan yang adepten, penyisipan atau penghapusan objek, dan bahkan manipulasi pose manusia yang kompleks. Dalam perbandingan kualitatif, qwen-image berhasil mempertahankan detail halus seperti untaian rambut selama perubahan pose dan dengan benar menyimpulkan detail pakaian yang sebelumnya dikaburkan, menunjukkan pemahaman yang canggih tentang konteks.

Mungkin fitur yang paling berwawasan ke depan adalah penerapan kekuatan generatifnya untuk tugas-tugas yang biasanya ditangani oleh model komputer khusus. Tim Qwen menunjukkan bahwa model dapat melakukan serangkaian tugas pemahaman gambar melalui petunjuk pengeditan sederhana. Ini termasuk deteksi objek, segmentasi semantik, estimasi kedalaman dan tepi (Canny), dan sintesis tampilan baru. Dengan membingkai tugas-tugas persepsi ini sebagai bentuk pengeditan gambar yang cerdas, Alibaba secara efektif menjembatani kesenjangan antara AI yang melihat dunia dan AI yang membuatnya.

bagian dari acara ofensif open-source yang lebih luas

Peluncuran qwen bukan peluncuran qwen-qwen bukanlah sebuah peluncuran qwen bukan isol. Ini adalah langkah terbaru dalam serangkaian rilis utama AI yang cepat dari Alibaba, menandakan strategi komprehensif untuk membangun serangkaian lengkap alat terbuka untuk pengembang dan mendominasi ekosistem open-source.

Dalam minggu-minggu sebelumnya, yang memiliki punggung industri yang sama dengan qwen3-popping. Ini disertai dengan model pengkodean agen yang kuat, QWEN3-Coder.

Pivot strategis ini digarisbawahi oleh pernyataan dari Alibaba Cloud, yang menjelaskan keputusannya untuk meninggalkan mode”pemikiran hibrida”dari model sebelumnya. Seorang juru bicara mengatakan, “Setelah berdiskusi dengan masyarakat dan merefleksikan masalah ini, kami telah memutuskan untuk meninggalkan mode berpikir hibrida. Kami sekarang akan melatih model instruksi dan pemikiran secara terpisah untuk mencapai kualitas terbaik,”mengklarifikasi fokus baru pada sistem khusus yang berkualitas. Rilis itu memperkenalkan arsitektur campuran canggih (MOE) untuk meningkatkan kualitas dan efisiensi video.

menavigasi lanskap AI yang kontroversial

Dorongan agresif ini terjadi ketika industri bergulat dengan skeptisisme yang semakin besar tentang reliabilitas benchmarkarks AI. Hanya beberapa minggu yang lalu, sebuah penelitian menuduh bahwa model QWEN2.5 Alibaba yang lebih tua telah”menipu”pada tes matematika utama dengan menghafal jawaban dari data pelatihan yang terkontaminasi.

Kontroversi ini menyoroti masalah sistemik”pengajaran untuk tes”dalam perlombaan untuk dominasi papan peringkat. Seperti yang dicatat oleh ahli strategi AI Nate Jones, “saat kami menetapkan dominasi papan peringkat sebagai tujuan, kami berisiko membuat model yang unggul dalam latihan sepele dan flounder ketika menghadapi kenyataan.” Sentimen ini digaungkan oleh para ahli seperti Sara Hooker, Kepala Cohere Labs, yang berpendapat bahwa “ketika papan peringkat penting untuk seluruh ekosistem, insentif diselaraskan untuk di-gamed.”

Dengan memfokuskan pada penipuan yang sulit dari penipuan, penanggulangan, ABLEKBOBER, APAKSI DARI ABLEADE, AKTRAKSI PEADY SEPERTI ABSITAS, ALIBABA, ALIBABA THE SHIFORDE DARI APRAKSI, ALIBABA THE SCOREDS DARI ABSITAS SEPERTI ABSITAS, ALIBABA THE SCORED DARI ABSITAS SEPENTI KEMAMPAAN, ALIBABA THE DEADEBODS, ALibabA, href=”https://huggingface.co/qwen/qwen-image”target=”_ blank”> utilitas dunia nyata dan inovasi terbuka .

Strategi ini menyediakan alternatif yang kuat dan gratis secara langsung menantang model tertutup yang mendominasi pasar kelas atas. Ini meningkatkan persaingan dan mencerminkan taruhan bahwa ekosistem terbuka akan menumbuhkan inovasi yang lebih cepat dan adopsi yang lebih luas.

Categories: IT Info