今週、AlibabaのQwenチームは、AI業界を揺さぶっている新しいフラッグシップオープンソース推論モデルをリリースしました。 7月25日に発表されたQWEN3-235B-A22B-Thinking-2507モデルは、すでに主要な業界のベンチマークを上回っており、GoogleやOpenaiなどのライバルから強力な専有システムを上回っています。これは、複雑な推論と迅速な指導のフォローのために、別々の専門的なモデルを訓練するための以前の「ハイブリッド思考」アプローチを放棄しています。この動きは、高品質を提供し、開発者に最先端のAIツールを提供することを目的とすることを目的としています。システム。そのパフォーマンスは単一のニッチに限定されません。代わりに、複雑な推論、コーディング、およびユーザーアラインメントにおけるバランスのとれた強力な機能を示し、オープンソースAIが達成できるものの新しい標準を設定します。 src=”data:image/svg+xml; nitro-empty-id=mtyzodoxmtc2-1; base64、phn2zyb2awv3qm94psiwidagmti4mca3mj aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
高度な数学的および論理的推論の領域では、このモデルは非常に有能であることが証明されています。 QWEN3-Thinking-2507は、洗練されたマルチステップの問題解決スキルを評価するために設計されたAIME25ベンチマークで、92.3の驚くべきスコアを達成しました。これは、最も強力な独自モデルのいくつかを先取りし、特にGoogleのGemini-2.5Proを上回り、同じ評価で88.0のスコアを記録しました。 LiveCodeBench V6でテストされた場合、実際のコーディングタスクを処理するAIの能力を評価するベンチマークであるQWEN3考えは、74.1のトップスコアを確保しました。このパフォーマンスは、Gemini-2.5 Pro(72.5)とOpenaiのO4-Mini(71.8)の両方よりも快適に先を行っており、開発者とエンジニアリングチームの実用性を示しています。アリーナハードV2ベンチマークのトップスポットを獲得しました。これは、モデルユーザーが直接比較で好む測定値です。この79.7のリーディングスコアは、強力な技術スキルだけでなく、生成された応答の高度な有用性、一貫性、安全性も示しています。
モデルの機能は、オープンソースの代替品がもはや追いつくのではなく、AI推論のまさにフロンティアで直接競合する極めて競合していることを示しています。
この画期的なリリースは、アリババのAI部門にとっての主要な戦略的ピボットを表しており、その開発哲学における意図的かつ慎重に考慮された進化を示しています。同社は、以前のQWEN3モデルの中心的な機能である「ハイブリッド思考」モードを公式に放棄すると発表しました。その最初のアプローチでは、開発者が特別なトークンを使用して、複雑さと矛盾を導入できるシステムを使用して、迅速な指導にフォローするモードと深い推論モードを手動で切り替える必要がありました。正式な声明では、
新しい思考モデルを支えることは、洗練された非常に効率的な専門家(MOE)アーキテクチャです。このモデルには2,350億の巨大なパラメーターが含まれており、計り知れない知識のリポジトリを提供しますが、特定のタスクに対して22億パラメーターのサブセットのみをアクティブにします。モデル。この膨大な容量により、モデルは、ソフトウェアコードリポジトリ全体の分析、長い法的または財務文書の消化、会話のスレッドを失うことなく拡張された複雑なユーザーのやり取りを維持するなど、単一のパスで膨大な量の情報を処理および推論することができます。リリースの最も重要な側面は、ライセンスです。 QWEN3-Thinking-2507は