A
Alibaba AI osztályának ellenőrzése alatt áll, miután egy új tudományos tanulmány azt állította, hogy a QWEN2.5 modellje elérte a legfontosabb pontszámokat egy kulcsfontosságú matematikai referenciaértéken, amelyet a „csalás” alapján állítottak fel. A Fudan Egyetem és az UC Davis kutatói 2025. július 18-án tettek közzé egy papírt, amely bizonyítékot szolgáltatott arra, hogy a modellt a tesztkérdésekre képzették. A megállapítások kihívást jelentenek az Alibaba korábbi állításaira a Superior AI teljesítményéről. Szélesebb körű kérdéseket vetnek fel az ipari szabványos referenciaértékek megbízhatóságával kapcsolatban is, mint a matematikai, , amelyek döntő jelentőségűek a világ legerősebb AI rendszereinek értékeléséhez. megmérve. Az adatok szennyeződése, ahol a teszt adatok véletlenül kiszivárognak az edzőkészletekbe, felfújhatják a teljesítménymutatókat, amelyek hamis benyomást kelthetnek a modell valódi képességeiről és félrevezethetik az iparágot. Benchmark Champion a csalás botránya
A kutatási cikkben szereplő állítások éles ellentétben állnak az Alibaba magabiztos bejelentéseivel az év elején. 2025 januárjában a cég elindította a QWen2.5 sorozatát, és közvetlen versenytársként helyezte el az Openai és a DeepSeek modelljeinek. A QWEN csapata azt állította: „Ezek a modellek nem csak az elismerésről szólnak, hanem aktívan foglalkoznak az eszközökkel, így képesek voltak összetett feladatokat végrehajtani az eszközökön.”
Nem sokkal azután, hogy az Alibaba bemutatta a Qwen 2.5-Max-ot, és azt állította, hogy felülmúlta a riválisok több ranglistán. Abban az időben a vállalat kijelentette: „Alapmodelleink jelentős előnyöket mutattak a legtöbb referenciaértékben, és optimistaak vagyunk abban, hogy az edzés utáni technikák előrelépései új magasságokba emelik a QWEN 2,5-Max következő verzióját.” Ezek az állítások most a gyanú felhő alatt vannak. A kutatók „részleges prompt” módszerrel tesztelték a modellt. A QWEN2.5-et csak a MATH-500 Benchmark problémáinak első 60%-át táplálták, hogy megnézhessék-e őket.
Az eredmények elmondták. A QWEN2.5 54,6%-os pontossággal képes volt a problémákat szó szerint kitölteni, és továbbra is helyesen oldotta meg azokat. Ezzel szemben a Meta Llama3.1-8B modellje, amelyet nem képeztek a tesztadatokon, mindössze 3,8%-os befejezési arányt kezeltek. Ehelyett úgy tűnik, hogy olyan információkat gyűjtött, amelyeket már látott a képzés során, és ténylegesen „regurgitálva” válaszokat memorizált olyan forrásokból, mint a GitHub, ahol az ilyen adatkészletek gyakoriak. Ez a referenciaérték teljesen szintetikus aritmetikai problémákból áll, garantálva, hogy a meglévő AI-modellek sem láthatták volna őket. Pontossága csökkent, mivel a problémák bonyolultabbá váltak, ami egy olyan modell várható viselkedése, amelyet valóban megkísérelnek indokolni. Ez éles ellentétben áll a szennyezett Math-500 teszt hibátlan visszahívásával. A tiszta adatkészletben a QWEN2.5 teljesítménye csak akkor javult, ha azt helyes jutalmakkal képezték. A véletlenszerű vagy fordított jutalmak eredményeként teljes mértékben instabilá vagy összeomlássá vált. Ahogy a vállalatok versenyeznek a versenyképes ranglistákra, megkérdőjelezik a referenciaértékek integritása. A végrehajtási nyomás „a tesztelés oktatásához” vezethet, ahol a modelleket kifejezetten az ACE értékelésekhez képzik. A referenciaértékek megbízhatósága alapvető fontosságú az AI valós előrehaladásának nyomon követésében. Amikor ezek az értékelési eszközök veszélybe kerülnek, nehéz megkülönböztetni a valódi innovációt és az okos optimalizálást.