Alibabas AI-divisjon står overfor gransking etter at en ny akademisk studie påsto sin QWEN2.5-modell oppnådde toppscore på en viktig matematikkmark, alledgeded ved”juks.”Forskere fra Fudan University og UC Davis publiserte en artikkel 18. juli 2025, og ga bevis for at modellen ble opplært på testspørsmålene.
Dette tillot den å huske svar i stedet for å demonstrere ekte resonnement. Funnene utfordrer Alibabas tidligere påstander om overlegen AI-ytelse. De reiser også bredere spørsmål om påliteligheten til bransjestandard benchmarks som
Resultatene fortalte. Qwen2.5 var i stand til å fullføre problemene ordrett med 54,6% nøyaktighet og fremdeles løse dem riktig. Derimot administrerte Metas Llama3.1-8B-modell, som ikke ble trent på testdataene, en fullføringsgrad på bare 3,8%. Dette avviket antyder sterkt at Qwen2.5 ikke var resonnement fra første prinsipper. I stedet ser det ut til å ha hentet informasjon den allerede hadde sett under treningen, effektivt å”oppgi”svar den hadde husket fra kilder som GitHub der slike datasett er vanlige. Study fra studiet fra Capellan Captan. Forskere testet modellen ved hjelp av en”delvis hurtig”-metode. De matet Qwen2,5 bare de første 60% av problemene fra MATH-500-referansen for å se om det kunne fullføre dem.
En test på rensing, avslører”sannheten. Denne målestokken består av fullt syntetiske aritmetiske problemer, og garanterer at ingen eksisterende AI-modell kunne ha sett dem før.
På dette rene datasettet endret Qwen2.5s ytelse dramatisk. Nøyaktigheten avtok etter hvert som problemene ble mer sammensatt, noe som er den forventede atferden for en modell som virkelig prøver å resonnere. Dette står i skarp kontrast til dens feilfrie tilbakekalling på den forurensede MATH-500-testen.
Videre debunkerte studien nyere teorier om at tilfeldige eller feil belønningssignaler kan forbedre resonnementet. På det rene datasettet forbedret Qwen2.5s ytelse bare når det ble trent med riktige belønninger. Tilfeldige eller omvendte belønninger fikk ytelsen til å bli ustabil eller kollapse helt.
En bredere tillitskrise for AI-benchmarks
Denne hendelsen fremhever en økende tillitskrise i AI-industrien. Når selskaper løper for å topp konkurransedyktige toppliste, kommer integriteten til selve benchmarks selv i tvil. Presset for å utføre kan føre til”undervisning til prøve”, der modeller er trent spesielt til ACE-evalueringer.
Dette er et systemisk problem som strekker seg utover et enkelt selskap. Påliteligheten til benchmarks er grunnleggende for å spore reell fremgang i AI. Når disse evalueringsverktøyene blir kompromittert, blir det vanskelig å skille mellom ekte innovasjon og smart optimalisering.
Som svar på studien har Alibabas Qwen-team gitt ut en offentlig uttalelse som tar for seg dataforurensningskrav og bekrefter deres forpliktelse til å benchmark integritet.