AlibabaのAI部門は、新しい学術研究がQWEN2.5モデルが「不正行為」に委ねられた主要な数学ベンチマークでトップスコアを達成したと主張した後、精査に直面しています。 Fudan UniversityとUC Davisの研究者は、2025年7月18日に論文を発行し、モデルがテストの質問について訓練されたという証拠を提供しました。調査結果は、Alibabaの優れたAIパフォーマンスの以前の主張に挑戦しています。彼らはまた、 math-500、のような業界標準のベンチマークの信頼性についてより広範な疑問を提起します。測定されます。テストデータが不注意にトレーニングセットに漏れているデータの汚染は、パフォーマンスメトリックを膨らませる可能性があり、モデルの真の機能の誤った印象を作成し、業界を誤解させる可能性があります。不正スキャンダルへのベンチマークチャンピオン
研究論文の申し立ては、今年初めにアリババの自信のある発表とは対照的に立っています。 2025年1月、同社はQWEN2.5シリーズを開始し、OpenaiとDeepseekのモデルへの直接的な競合他社としての位置を立てました。 Qwenチームは、「これらのモデルは認識だけではありません。ツールに積極的に関与し、デバイス全体で複雑なタスクを実行できるようになりました。」
AlibabaはQwen 2.5-Maxを発表し、複数のリーダーボードでライバルを拡大したと主張しました。当時、同社は次のように述べています。「当社の基本モデルは、ほとんどのベンチマークにわたって大きな利点を示しており、トレーニング後のテクニックの進歩により、QWEN 2.5-MAXの次のバージョンが新身長に向上すると楽観的です。」これらの主張は現在、疑いの雲の下にあります。
証拠:推論または暗記の暗記?研究者は、「部分的なプロンプト」メソッドを使用してモデルをテストしました。彼らは、QWEN2.5にMATH-500ベンチマークからの問題の最初の60%のみを供給して、それがそれらを完了できるかどうかを確認しました。
結果が伝えていました。 QWEN2.5は、54.6%の精度で逐語的な問題を完了し、それでも正しく解決することができました。対照的に、テストデータのトレーニングを受けていないMetaのLlama3.1-8Bモデルは、わずか3.8%の完了率を管理しました。代わりに、トレーニング中にすでに見た情報を取得しているように見えます。そのようなデータセットが一般的なGithubのようなソースから記憶した回答を事実上「逆流」しています。このベンチマークは、完全に合成的な算術の問題で構成されており、既存のAIモデルが以前に見たことがなかったことを保証します。問題がより複雑になるにつれてその精度は低下しました。これは、本当に推論しようとしているモデルの予想される動作です。これは、汚染されたMath-500テストに関する完璧なリコールとは対照的です。
さらに、この研究では、ランダムまたは誤った報酬シグナルが推論を強化できるという最近の理論を暴きました。クリーンデータセットでは、QWEN2.5のパフォーマンスは、正しい報酬でトレーニングされた場合にのみ改善されました。ランダムまたは反転した報酬により、パフォーマンスは不安定になり、完全に崩壊しました。企業がトップの競争力のあるリーダーボードに競うにつれて、ベンチマーク自体の完全性が疑問視されています。実行へのプレッシャーは、モデルが特にACE評価のために訓練されている「テストへの教育」につながる可能性があります。ベンチマークの信頼性は、AIの実際の進歩を追跡するための基本です。これらの評価ツールが危険にさらされると、本物の革新と巧妙な最適化を区別することが困難になります。
研究に応じて、AlibabaのQwenチームは、データ汚染の主張に対処し、ベンチマークの完全性へのコミットメントを再確認する公式声明を発行しました。