La divisione AI di

Alibaba sta affrontando un controllo dopo che un nuovo studio accademico ha affermato che il suo modello Qwen2.5 ha raggiunto i punteggi migliori su un punto di riferimento di matematica chiave, allentamente”imbrogli”. I ricercatori dell’Università di Fudan e della UC Davis hanno pubblicato un documento il 18 luglio 2025, fornendo prove che il modello è stato addestrato sulle domande del test.

Ciò gli ha permesso di memorizzare le risposte piuttosto che dimostrare un ragionamento autentico. I risultati sfidano le precedenti affermazioni di Alibaba di prestazioni di intelligenza artificiale superiori. Sollevano anche domande più ampie sull’affidabilità dei benchmark standard del settore come matema è misurato. Data contamination, where test data inadvertently leaks into training sets, can inflate performance metrics, which can creat a false impression of a model’s true capabilities and misleads the industry.

From Campione di riferimento allo scandalo imbroglione

Le accuse nel documento di ricerca si trovano in netto contrasto con gli annunci sicuri di Alibaba all’inizio di quest’anno. Nel gennaio 2025, la società ha lanciato la sua serie Qwen2.5, posizionandola come concorrente diretto ai modelli di Openai e DeepSeek. Il team di Qwen ha affermato:”Questi modelli non sono solo un riconoscimento; si impegnano attivamente con strumenti, rendendoli in grado di svolgere compiti complessi su dispositivi”. All’epoca, la società affermava:”I nostri modelli di base hanno dimostrato vantaggi significativi nella maggior parte dei parametri di riferimento e siamo ottimisti sul fatto che i progressi nelle tecniche di post-formazione elevranno la prossima versione di Qwen 2.5-Max a nuove altezze”. Queste affermazioni sono ora sotto una nuvola di sospetto.

Le prove: ragionamento o memorizzazione rote?

The studia di studio dalla fuudan fornisce un’evidenza confinante di memorizzazione di memorizzazione . I ricercatori hanno testato il modello usando un metodo”prompt parziale”. Hanno alimentato Qwen2.5 solo il primo 60% dei problemi dal benchmark di Math-500 per vedere se poteva completarli.

I risultati stavano dicendo. Qwen2.5 è stato in grado di completare i problemi alla lettera con una precisione del 54,6% e ancora risolverli correttamente. Al contrario, il modello Llama3.1-8b di Meta, che non è stato addestrato sui dati di test, ha gestito un tasso di completamento di soli 3,8%.

Questa discrepanza suggerisce fortemente che Qwen2.5 non stava ragionando dai primi principi. Invece, sembra aver recuperato informazioni che avevano già visto durante la sua formazione, in modo efficace”rigurgitando”le risposte che aveva memorizzato da fonti come GitHub in cui tali set di dati sono comuni.

Un test su terreni puliti rivela la verità

Per confermare la loro ipotesi, i ricercatori hanno creato un completamente nuovo, non rilevante da dati casuali”. Questo punto di riferimento è costituito da problemi aritmetici completamente sintetici, garantendo che nessun modello AI esistente avrebbe potuto vederli prima.

su questo set di dati pulito, le prestazioni di Qwen2.5 sono cambiate radicalmente. La sua precisione è diminuita quando i problemi sono diventati più complessi, il che è il comportamento atteso per un modello che sta veramente tentando di ragionare. Ciò è in netto contrasto con il suo impeccabile richiamo sul test di matematica contaminata.

Inoltre, lo studio ha smentito le recenti teorie secondo cui segnali di ricompensa casuali o errati potrebbero migliorare il ragionamento. Sul set di dati pulito, le prestazioni di Qwen2.5 sono migliorate solo quando sono state addestrate con premi corretti. I premi casuali o invertiti hanno causato il crollo delle sue prestazioni o crollare del tutto.

Una più ampia crisi di fiducia per i benchmark di AI

Questo incidente evidenzia una crescente crisi di fiducia all’interno dell’industria dell’intelligenza artificiale. Mentre le aziende corrono verso le migliori classifiche competitive, l’integrità dei benchmark stessi sta mettendo in discussione. La pressione per eseguire può portare a”insegnare al test”, in cui i modelli sono addestrati specificamente alle valutazioni ACE.

Questo è un problema sistemico che si estende oltre ogni singola azienda. L’affidabilità dei parametri di riferimento è fondamentale per il monitoraggio dei progressi reali nell’IA. Quando questi strumenti di valutazione sono compromessi, diventa difficile distinguere tra innovazione autentica e ottimizzazione intelligente.

In risposta allo studio, il team Qwen di Alibaba ha rilasciato una dichiarazione pubblica che affronta le richieste di contaminazione dei dati e riaffermando il loro impegno per l’integrità di riferimento.