AlibabaのQwenチームは火曜日にリリースしました。Qwen3-Coderは、人類のようなライバルを直接目的としたオープンソースAIコーディングモデルの強力な新しいシリーズです。大規模な480億パラメーターバージョンが見出し、モデルは「エージェント」作業用に設計されており、複雑なソフトウェア開発タスクを自律的に処理できるようにします。オープンモデルの新しい標準を設定します。ただし、AI Benchmarksに対する深い業界の懐疑論の中でも発売が届き、Alibaba自身のモデルの別のモデルが主要なパフォーマンステストをだましたという最近の申し立てによって促進されました。 href=”https://huggingface.co/qwen/qwen3-coder-480b-a35b-instruct”ターゲット=”_ blank”> qwen3-coder-480b-a35b-instruct 、大規模な混合物(MOE)モデル。合計4,800億パラメーターが含まれていますが、特定のタスクに対して350億パラメーターサブセットのみをアクティブにします。このアーキテクチャは、計算効率を維持しながら、計り知れない力を提供します。
モデルの基礎は、トレーニング前データの巨大な7.5兆トークンの上に構築されており、特にコード専用の70%の比率があります。 Qwenチームによると、データの品質が最重要でした。彼らは、以前のモデルであるQWEN2.5-CODERを活用して、この新世代の騒々しいデータを合成して書き直しました。
その技術仕様は手ごわいものです。このモデルは、糸などの外挿法を使用して、100万トークンに拡張できるネイティブ256,000トークンのコンテキスト長を誇っています。この膨大な能力は、リポジトリの規模の理解に合わせて調整されており、AIが大規模なソフトウェアプロジェクトの完全なコンテキストを把握できるようにします。このモデルは、C ++、Python、Javaなどの主流の選択から、ABAP、Rust、Swiftなどの特殊な言語まで、膨大な数のプログラミング言語をサポートしています。これにより、多様な開発環境と「中に入力する」コード挿入などの特殊なタスクを処理できます。
トレーニング前に、Alibabaは高度なトレーニング後のテクニックに焦点を当てました。チームは、幅広い現実世界のコーディングタスクでコード補強学習(コードRL)と呼ばれるものを拡大しました。このアプローチは、実行駆動型のフィードバックを使用して成功率を大幅に高めるために「解決するのが難しいが検証が容易」の問題に取り組む原則に基づいて構築されています。これには、20,000の独立した環境を並行して実行できるAlibaba Cloudにスケーラブルなシステムを構築する必要がありました。このインフラストラクチャは、モデルに計画、ツールの使用、複雑なマルチターンインタラクション全体で決定を下すようにモデルを教えるための重要なフィードバックループを提供します。
QWENチームがリリースしたパフォーマンスデータによれば、最大のエージェントコーディングモデルとしての地位を確立し、最先端の結果を達成します。実際のソフトウェアエンジニアリング機能の重要なテストであるSWEベンチ検証済みのベンチマークでは、QWEN3-CODERモデルは500回転の相互作用で69.6%を獲得します。さらに、QWEN3-CODERは、KIMI-K2(65.4%)、GPT-4.1(54.6%)、GEMINI-2.5-PRO(49.0%)を含む、フィールドの他の主要なモデルを大幅に上回り、エージェントAIのレースで強力な新しいコンテンダーとしての強力な新しいコンテンダーとしての地位を固めます。覇権
このリリースは、AIの次のフロンティア:エージェントインテリジェンスへのアリババの積極的なプッシュを示しています。業界は、単純なコードアシスタントを超えて、複雑なマルチステップ開発タスクを計画、実行、適応できる自律エージェントに急速に移行しています。 QWEN3-Coderは単なる新しいモデルではありません。これは、このエスカレートする「武器競争」への戦略的エントリです。
この傾向はすでに企業で検証されています。たとえば、投資銀行のゴールドマン・サックスは最近、「ハイブリッド労働力」を構築するためにAIエージェントデヴィンの操縦を開始し始めました。その技術チーフであるマルコ・アルゼンティは、「人々とAISが並んで働くことについての未来を説明しました。エンジニアは、退屈なコーディングから高レベルの問題解決に人間の焦点をシフトする能力を持つことが期待されるでしょう。米国では、Amazonは最近、Kiroのエージェントを発表して混oticとした「Vibe Coding」に構造を課しましたが、Googleは包括的なFirebase Studioと無料のGemini CLIで2つの攻撃を追求しています。 OpenaiはCodexエージェントのアップグレードを続けており、最近、データを自律的に見つけて使用するためのインターネットアクセスを提供しています。
競争は、中国の「100モデルの戦争」においても同じくらい激しいものです。 QWEN3-CODERは、Moonshot AIのようなオープンソースの大国に対して配置されており、最近1兆パラメーターのKimi K2モデルをリリースしました。この国内のライバル関係は、中国企業に自立した生態系を構築するように強制する地政学的な圧力によって促進されています。 Startup Windsurfのコーディングは最近、Google PoachのCEOとトップの才能を見て、ランされたOpenaiの買収を断念し、ライバル認知が残りの会社を買収できるようにしました。この「ベンチマーク戦争」の明確な例では、Elon MuskのXaiは最近、人類のクロードを破るためにGrok 4モデルを訓練するために特に請負業者を雇いました。プレミアム加入者の人類が引き締められた使用制限が制限され、これらの強力なサービスを提供するという財政的負担を強調したときに見られるように、膨大な運用コストも要因です。アリババにとってタイミングは厄介です。 Just days earlier, on July 18, a study from Fudan University alleged its Qwen2.5 model had “cheated”on the MATH-500 benchmark.
The paper claimed the model achieved top scores by memorizing test data, not through genuine推論。この論争は、テストの質問がトレーニングセットに漏れ、パフォーマンスを膨らませ、モデルの真の能力の誤った印象を生み出すデータ汚染の体系的な問題を強調しています。 LmarenaのCEO Anastasios Angelopoulosのように、開発の通常の部分と見なし、「これはモデルトレーニングの標準ワークフローの一部です。モデルを改善するためにデータを収集する必要があります。」 AIストラテジストのネイトジョーンズが述べたように、「リーダーボードの支配を目標として設定した瞬間、現実に直面したときに些細なエクササイズとヒラメのモデルを作成するリスクがあります。」この感情は、Cohere Labsの責任者であるSara Hookerのような専門家によって反響されています。彼は、「リーダーボードが生態系全体にとって重要である場合、インセンティブはゲームが描かれているが、試験で良いが実用的なタスクで貧弱なモデルのリスクを生み出します。採用、Alibabaはモデルと一緒に一連のツールをリリースしています。同社は、GoogleのGemini CLIからフォークされ、新しいモデル向けにカスタマイズされたコマンドラインインターフェイス「Qwen Code」を立ち上げました。これにより、開発者はエージェントコーディングのための既製の環境を提供します。
その魅力を広げるための精通した動きで、Qwenチームは既存の人気のある開発者ツールとの互換性を確保しました。特に、qwen3-coder 独自のクロードコードCLIで使用できます。開発者の忠誠心を獲得するため。 独自のモデルStudio API など、複数のプラットフォームを介して強力なモデルをアクセスできるようにすることにより、Alibabaは、有用性と使いやすさが、ベンダーロックインに含まれる市場での採用を促進することを賭けています。モデル、QWEN3-235B-A22B-INSTRUCT-2507、