阿里巴巴的AI部門在一項新的學術研究指控其QWEN2.5模型在關鍵的數學基準測試中獲得了最高得分,這是通過“作弊”而獲得的。 Fudan University和UC Davis的研究人員於2025年7月18日發表了一篇論文,證明該模型接受了測試問題的培訓。

這使其能夠記住答案,而不是證明真正的推理。這一發現挑戰了阿里巴巴先前對AI表現的主張。他們還提出了有關行業標準基準標準的可靠性,例如 Math-500,評估世界上最強大的AI System a In Is Ins a In Is Is Ins a Inii a Ins a Inii a Inii a Inii a Inii a Inii a Inii a Inii a Inii a Inii a Inii。測量。數據污染(測試數據無意間洩漏成訓練集)可能會使性能指標膨脹,這可能會產生對模型的真實能力的錯誤印象,並誤導了該行業。

基於作弊醜聞

研究論文中的指控與阿里巴巴今年早些時候的自信公告形成鮮明對比的指控。 2025年1月,該公司推出了其QWEN2.5系列,將其定位為OpenAI和DeepSeek模型的直接競爭對手。 QWEN團隊聲稱:“這些模型不僅是關於認可;它們積極地使用工具,使它們能夠在設備上執行複雜的任務。”

不久之後,阿里巴巴公佈了QWEN 2.5-MAX,聲稱它在多個排行榜上的表現都超過了競爭對手。該公司當時表示:“我們的基本模型在大多數基準中都具有顯著優勢,我們樂觀地認為,培訓後技術的進步將把下一個QWEN 2.5-MAX的下一個版本提升到新的高度。”這些主張現在處於懷疑的範圍之下。

證據:推理或死記硬背?

結果是在說明。 Qwen2.5能夠以54.6%的精度逐字解決問題,但仍能正確解決它們。相比之下,未對測試數據進行培訓的Meta的Llama3.1-8B模型僅管理了3.8%的完成率。

這種差異強烈表明Qwen2.5不是第一原則的推理。取而代之的是,它似乎正在檢索其在培訓中已經看到的信息,實際上是從諸如GitHub之類的來源中記住的答案,這些數據是常見的。

在乾淨的地面上進行的測試揭示了真相

,以確認其假設,並創建了一個全新的數據。該基準測試包括完全合成的算術問題,確保沒有現有的AI模型以前可以看過它們。

在此乾淨的數據集中,Qwen2.5的性能發生了巨大變化。隨著問題變得更加複雜,它的準確性下降了,這是一個真正試圖推理的模型的預期行為。這與其在受污染的數學500測試中的完美召回形成鮮明對比。

此外,該研究揭示了最近的理論,即隨機或不正確的獎勵信號可以增強推理。在乾淨的數據集中,QWEN2.5的性能只有在接受正確的獎勵訓練時才能提高。隨機或反轉的獎勵導致其表現變得不穩定或完全崩潰。

對AI基準的信任危機

這一事件凸顯了AI行業內部信任的日益增長的危機。隨著公司競爭最佳競爭排行榜,基準本身的完整性受到質疑。執行的壓力會導致“進行教學”,其中模型是專門針對ACE評估的培訓。

這是一個系統性的問題,它超出了任何單個公司。基準的可靠性對於跟踪AI的實際進度至關重要。 When these evaluation tools are compromised, it becomes difficult to distinguish between genuine innovation and clever optimization.

In response to the study, Alibaba’s Qwen team has issued a public statement addressing the data contamination claims and reaffirming their commitment to benchmark integrity.