Alibaba telah merilis Qwen3, keluarga baru model bahasa besar yang bertujuan untuk bersaing dengan penawaran AI teratas dari Openai dan Google melalui fitur khas seperti mode”pemikiran hibrida”dan dukungan multibahasa yang luas. Dalam langkah yang konsisten dengan rilis sumber terbuka sebelumnya seperti WAN 2.1, raksasa teknologi Tiongkok membuat sebagian besar model dalam seri QWEN3 yang tersedia di bawah lisensi Apache 2.0 melalui platform termasuk , github , , dan kaggle .
pemikiran hybrid dan kapabilitas multibahal
adalah kapabilitas hybrid dan qualal
“Mode Berpikir”default memungkinkan model untuk melakukan penalaran langkah demi langkah untuk tugas-tugas kompleks seperti matematika atau pengkodean, seringkali menghasilkan langkah-langkah perantara ini dalam tag sebelum respons akhir.
Sebaliknya,”mode non-pemikiran”memberikan jawaban yang lebih cepat dan langsung untuk interaksi yang lebih sederhana. Pengembang dapat beralih perilaku ini menggunakan parameter enable_thinking atau tag spesifik/think dan/no_think di dalam prompt. pengumuman tim Qwen Menyoroti fleksibilitas ini:”Desain ini memungkinkan pengguna untuk mengkonfigurasi kualitas-panjang”26″PRIFIT”PRIFIF,”Pengguna”Pengguna””Pengguna””Pengguna””Pengguna””Pengguna”.”src=”Data: Image/SVG+XML; Nitro-EMPTY-ID=MTY2OTOXNJE4-1; BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTAYNCA1NZ Yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Best practices documentation on the Hugging Face model card for Qwen3-0.6B-FP8 advises distinct sampling parameters for each mode and warns against greedy decoding in thinking mode.
Qwen3 models Juga mendukung 119 bahasa dan dialek, yang bertujuan untuk mengikuti pengajaran multibahasa yang kuat. Model menangani berbagai panjang konteks; Model yang lebih kecil seperti varian 0,6b memiliki jendela token 32K asli, sementara model yang lebih besar dilaporkan dapat mendukung hingga 128k atau 131k token melalui teknik seperti penskalaan benang.
Klaim kinerja dan varian model
Seri Qwen3 mencakup beberapa model gangguan terbuka, seperti dua kali lipat, dan dua kali lipat, dan dua kali lipat, dan dua kali lipat, dan dua kali lipat dari DUR-TO MODEL, LOVET 62, seperti beberapa model. Model campuran (MOE): QWEN3-30B-A3B dan unggulan QWEN3-235B-A22B (yang belum dapat diunduh). Model MOE ini menggunakan 128 total ahli tetapi hanya mengaktifkan 8 per token (sekitar 3B parameter aktif untuk model 30B, 22B untuk varian 235b), teknik yang dirancang untuk efisiensi komputasi, mungkin didorong oleh sanksi AS yang membatasi akses ke chip kinerja tinggi.
Posisi alibabA Kinerja Qwen3. Model 235B andalan diklaim pada model saingan seperti Openai O3-Mini dan Google Gemini 2.5 Pro pada pengkodean spesifik dan tolok ukur matematika.
Tim Qwen yang lebih besar menyatakan model Qwen3-30b-A3B yang lebih besar dari QwQ-5B mereka sebelumnya, dan qwen-BB mereka sebelumnya, Qwen3-BB mereka dengan Qwen-BB mereka, dan qwen-BB mereka sebelumnya 4-BB mereka qwen3-BB mereka qwen3-BB mereka. Qwen2.5-72b-instruct. QWEN3-32B yang tersedia untuk umum juga diklaim melampaui model O1 Openai pada tes pengkodean seperti LiveCodebench. Klaim-klaim ini mengikuti laporan sebelumnya di mana Alibaba membandingkan model QWEN 2.5-Max-nya lebih baik terhadap Deepseek v3.
Pelatihan, arsitektur, dan penggunaan
Model-model tersebut pra-terlatih pada dataset yang dilaporkan sekitar 36 triliun token, menggabungkan teks web, kode, teks yang diekstraksi dari PDF (menggunakan QWEN2.5-VL), dan data sintetis yang dihasilkan melalui model QWEN sebelumnya dalam Matematika dan Kode Matematika dan VL. Proses pasca-pelatihan melibatkan empat tahap, termasuk pembelajaran penguatan dan langkah-langkah spesifik untuk menggabungkan kemampuan berpikir dan tidak berpikir. Untuk tugas agen, QWEN3 mendukung model konteks protokol (MCP), dengan Alibaba merekomendasikan Kerangka kerja penyebaran seperti SGLang dan VLLM, atau alat lokal seperti Ollama dan LMstudio. Sebuah FP8-quantized Model 0,6b ditawarkan untuk efisiensi, meskipun potensi penyesuaian mungkin diperlukan untuk kerangka kerja tertentu seperti VLLM. Alibaba juga mengklarifikasi skema penamaan barunya, menghapus”-Instruct”dari model pasca-terlatih dan menambahkan”-base”ke model dasar.
Qwen3 memasuki lanskap AI dinamis. Alibaba mengklaim bahwa keluarga Qwen merupakan ekosistem AI open-source terbesar di dunia dengan model derivatif, mengutip lebih dari 100.000 pada wajah memeluk. Qwen3 is already integrated into Alibaba’s Quark AI assistant, which led Chinese chatbots in monthly active users in March 2025. The release follows Alibaba’s earlier Qwen 2.5 (January 2025) and QwQ models (Feb/March 2025).
China’s Crowded AI Arena
Qwen3 emerges into a fiercely Pasar AI domestik yang kompetitif. Deepseek AI membuat gelombang yang signifikan dengan Deepseek V3 yang efisien (Desember 2024) dan model penalaran Deepseek R1 yang kuat (Jan 2025). Namun, Deepseek sejak itu menghadapi pengawasan internasional, termasuk investigasi privasi data di Italia, tinjauan internal oleh Microsoft dan Openai atas dugaan akses data yang tidak tepat, dan Laporan dari Komite Pilihan US di CC-FIRM-FIRM-FIRM-FIRMSEek Spionase dan Pencurian IP.
CEO AI skala ALEXANDR Wang juga mengklaim pada akhir Januari bahwa “Deepseek memiliki sekitar 50.000 GPU NVIDIA H100. Mereka tidak dapat membicarakannya karena melanggar kontrol ekspor A.S. Baru-baru ini, Deepseek telah bergeser ke arah infrastruktur open-sourcing seperti sistem file 3FS dan penelitian seperti penyetelan kritik prinsip-mandiri (SPCT), sementara pemain lain menggunakan data open-source Deepseek untuk membuat versi yang dimodifikasi seperti PRANDSEEK-R1-Chimera Model yang baru-baru ini, yang merupakan komponen R1 dan V3 yang baru. Baidu recently escalated the price war with its ERNIE Turbo models (April 25, 2025), offering significant cost reductions after launching the capable ERNIE 4.5 and X1 models in March and making its ERNIE Bot free in February.
Tencent launched its Hunyuan Turbo S (Feb 2025) focused on speed and the reasoning-centric Hunyuan T1 (March 2025), while also mengkonfirmasi penggunaan model Deepseek untuk efisiensi. Sementara itu, Zhipu AI, sebagian didukung oleh Alibaba, merilis agen autoglm gratis (Maret 2025) dan sedang mengejar IPO. Alibaba sendiri mengintegrasikan model QWEN sebelumnya ke dalam Asisten AI Quark-nya.