Alibabaは、「ハイブリッド思考」モードや幅広い多言語サポートなどの特徴的な機能を通じて、OpenaiおよびGoogleのトップAI製品と競合することを目的とした大規模な言語モデルの新しいファミリーであるQWEN3をリリースしました。 WAN 2.1のような以前のオープンソースリリースと一致する動きで、中国の技術大手はQWEN3シリーズのほとんどのモデルを、 hugging face 、 github 、 alibabaのModelscope 、および kaggle 。その二重運用アプローチ。デフォルトの「思考モード」を使用すると、モデルは数学やコーディングなどの複雑なタスクの段階的な推論を実行でき、最終的な応答の前にタグ内にこれらの中間ステップを出力することがよくあります。開発者は、プロンプト内のenable_thinkingパラメーターまたは特定の/thinkおよび/no_thinkタグを使用して、この動作を切り替えることができます。 qwenチームの発表は、この柔軟性を強調しました。 height=”576″src=”data:image/svg+xml; nitro-empty-id=mty2otoxnje4-1; base64、phn2zyb2awv3qm94psiwidagmtaynca1nz yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
qwen3-0.6b-fp8 huggingフェイスモデルのドキュメントのドキュメントのドキュメント。また、119の言語と方言をサポートし、堅牢な多言語指導を目指しています。モデルは、さまざまなコンテキストの長さを処理します。 0.6Bバリアントのような小さなモデルにはネイティブ32Kトークンウィンドウがありますが、大きなモデルはYARNスケーリングなどのテクニックを通じて最大128Kまたは131Kトークンをサポートできると伝えられています。混合混合物(MOE)モデル:QWEN3-30B-A3BおよびフラッグシップQWEN3-235B-A22B(まだダウンロードできません)。これらのMOEモデルは、128人の専門家を使用しますが、トークンあたり8個のみをアクティブにします(30Bモデルでは約3Bアクティブパラメーター、235Bバリアントでは22B)、計算効率のために設計された手法であり、おそらく高性能チップへのアクセスを制限する米国の制裁によって拍車がかかります。フラッグシップ235Bモデルは、OpenaiのO3-MiniやGoogleのGemini 2.5 Proなどの特定のコーディングおよび数学ベンチマークに関するライバルモデルを主張しています。 QWEN2.5-72B-Instruct。公開されているQWEN3-32Bは、LiveCodebenchなどのコーディングテストでOpenAIのO1モデルを上回ると主張されています。これらの主張は、AlibabaがDeepSeek V3に対してQwen 2.5-Maxモデルを好意的にベンチマークした以前の報告に従っています。 src=”data:image/svg+xml; nitro-empty-id=mty3njoxmju1-1; base64、phn2zyb2awv3qm94psiwidagmtaynca1nz yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
トレーニング、アーキテクチャ、および使用法
モデルは、約36兆個のトークンであると報告されたデータセットで事前に訓練されており、Webテキスト、コード、PDFから抽出されたテキスト(QWEN2.5-VLを使用)、および以前のQwenモデルを介して発生した合成データを数学とコードで生成しました。トレーニング後のプロセスには、強化学習や思考と非考えの能力を融合するための特定のステップを含む4つの段階が含まれていました。エージェントタスクの場合、QWEN3はモデルコンテキストプロトコル(MCP)をサポートし、Alibabaは qwen-agentフレームワーク。 SglangやVLLMなどの展開フレームワーク、またはOllamaやLmstudioなどのローカルツール。 an fp8-quantized 0.6bモデルは効率のために提供されますが、vllmのような特定のフレームワークには潜在的な調整が必要になる場合があります。また、Alibabaは新しい命名スキームを明確にし、訓練後のモデルから「-instruct」を削除し、ベースモデルに「ベース」を追加します。 Alibabaは、Qwenファミリーは、派生モデルによって世界最大のオープンソースAIエコシステムを構成しており、顔を抱きしめて100,000を超えると主張しています。 QWEN3はすでにAlibabaのQuark AIアシスタントに統合されており、2025年3月に毎月のアクティブユーザーで中国のチャットボットをリードしています。リリースは、Alibabaの以前のQwen 2.5(2025年1月)およびQWQモデル(2025年2月/3月)に続きます。 AI市場。 Deepseek AIは、その効率的なDeepSeek V3(2024年12月)と強力なDeepSeek R1推論モデル(2025年1月)で大きな波を起こしました。ただし、Deepseekは、イタリアのデータプライバシー調査、MicrosoftとOpenaiによる不適切なデータアクセスの疑いに関する内部レビュー、および重要な