Alibabas AI-division står inför granskning efter att en ny akademisk studie påstod att dess QWEN2.5-modell uppnådde toppresultat på ett viktigt matematiskt riktmärke, tillträde av”fusk.”Forskare från Fudan University och UC Davis publicerade ett papper den 18 juli 2025 och gav bevis på att modellen utbildades i testfrågorna.
Detta tillät det att memorera svar snarare än att visa äkta resonemang. Resultaten utmanar Alibabas tidigare påståenden om överlägsen AI-prestanda. De väcker också bredare frågor om tillförlitligheten hos branschstandard riktmärken som Math-500, som är avgörande för utvärderingen av världens mest kraftfulla ai-system. uppmätt. Dataföroreningar, där testdata oavsiktligt läcker till träningsuppsättningar, kan blåsa upp prestandametriker, som kan skapa ett falskt intryck av en modells verkliga kapacitet och vilseleder branschen.
Studie från FUDAN-universitetet. Forskare testade modellen med hjälp av en”partiell prompt”-metod. De matade QWEN2.5 Endast de första 60% av problemen från Math-500-riktmärket för att se om det kunde slutföra dem.
Resultaten berättade. QWEN2.5 kunde slutföra problemen ordförande med 54,6% noggrannhet och fortfarande lösa dem korrekt. Däremot hanterade Metas Llama3.1-8B-modell, som inte utbildades på testdata, en kompletteringsgrad på bara 3,8%.
Denna avvikelse antyder starkt att QWEN2.5 inte var resonemang från första principerna. Istället verkar det ha hämtat information som den redan hade sett under sin träning, effektivt”regurgitating”-svar som det hade memorerat från källor som GitHub där sådana datasätt är vanliga.
ett test på ren mark avslöjar sanningen
för att bekräfta deras hypotes, forskarna skapade ett helt nytt, uncontaminerat datedaminerat”Randomcalculation”. Detta riktmärke består av helt syntetiska aritmetiska problem, vilket garanterar att ingen befintlig AI-modell kunde ha sett dem tidigare.
På detta rena datasätt förändrades QWEN2.5: s prestanda dramatiskt. Noggrannheten minskade när problemen blev mer komplexa, vilket är det förväntade beteendet för en modell som verkligen försöker resonera. Detta står i skarp kontrast till dess felfria återkallelse på det förorenade matematik-500-testet.
Vidare debunkerade studien de senaste teorierna om att slumpmässiga eller felaktiga belöningssignaler kan förbättra resonemanget. På det rena datasättet förbättrades QWEN2.5: s prestanda endast när det tränades med korrekta belöningar. Slumpmässiga eller inverterade belöningar fick dess prestanda att bli instabil eller kollaps helt.
En bredare kris av förtroende för AI-benchmarks
Denna incident belyser en växande kris av förtroende inom AI-industrin. När företag tävlar till toppkonkurrenskraftiga topplistor kommer själva riktmärken i själva verket att ifrågasättas. Trycket att utföra kan leda till”undervisning till testet”, där modeller utbildas specifikt till ACE-utvärderingar.
Detta är en systemisk fråga som sträcker sig utöver ett enda företag. Riktighetens tillförlitlighet är grundläggande för att spåra verkliga framsteg i AI. När dessa utvärderingsverktyg komprometteras blir det svårt att skilja mellan äkta innovation och smart optimering.
Som svar på studien har Alibabas Qwen-team utfärdat ett offentligt uttalande som behandlar dataföroreningar och bekräftar deras åtagande att jämföra integritet.