De AI-divisie van Alibaba wordt geconfronteerd met controle nadat een nieuw academisch onderzoek beweerde dat zijn QWEN2.5-model topscores behaalde op een belangrijke wiskundige benchmark, afgeleid door”vals spelen”. Onderzoekers van de Fudan University en UC Davis publiceerden een paper op 18 juli 2025 en leveren bewijs dat het model is getraind op de testvragen.

Hierdoor kon het antwoorden onthouden in plaats van echte redenering te tonen. De bevindingen dagen de eerdere claims van Alibaba over superieure AI-prestaties uit. Ze roepen ook bredere vragen op over de betrouwbaarheid van industrie-standaard benchmarks zoals Math-500, die cruciaal zijn voor het evalueren van de meest krachtige ai-systemen. gemeten. Gegevensvervuiling, waar testgegevens onbedoeld lekken in trainingssets, kunnen prestatiestatistieken opblazen, die een valse indruk kunnen maken van de ware mogelijkheden van een model en de industrie misleidt.

onderzoek van fudan universiteit biedt een combinatie van memorisatie . Onderzoekers testten het model met behulp van een”gedeeltelijke prompt”-methode. Ze voedden Qwen2.5 alleen de eerste 60% van de problemen van de MATH-500-benchmark om te zien of het ze kon voltooien.

De resultaten waren verteld. Qwen2.5 was in staat om de problemen letterlijk met 54,6% nauwkeurigheid te voltooien en ze nog steeds correct op te lossen. Het LLAMA3.1-8B-model van Meta daarentegen, dat niet op de testgegevens was getraind, beheerde een voltooiingspercentage van slechts 3,8%.

Deze discrepantie suggereert sterk dat Qwen2.5 niet van eerste principes redeneerde. In plaats daarvan lijkt het informatie te hebben opgehaald die het al tijdens zijn training had gezien, en effectief”antirurgititatie”die het had onthouden uit bronnen zoals GitHub waar dergelijke datasets gebruikelijk zijn.

Een test op schone grond onthult de waarheid

om hun hypothese te bevestigen, de onderzoekers hebben een volledig nieuwe, onontamide dataset”RandomCalculation”RandomCalculation onthult”. Deze benchmark bestaat uit volledig synthetische rekenkundige problemen en garandeert dat geen bestaand AI-model ze eerder had kunnen zien.

Op deze schone gegevensset veranderde de prestaties van QWEN2.5 dramatisch. De nauwkeurigheid ervan daalde naarmate de problemen complexer werden, wat het verwachte gedrag is voor een model dat echt probeert te redeneren. Dit staat in schril contrast met zijn vlekkeloze terugroepactie op de vervuilde MATH-500-test.

Bovendien heeft de studie recente theorieën ontkracht dat willekeurige of onjuiste beloningssignalen de redenering kunnen verbeteren. Op de schone gegevensset verbeterden de prestaties van QWEN2.5 pas toen deze werd getraind met correcte beloningen. Willekeurige of omgekeerde beloningen zorgden ervoor dat zijn prestaties onstabiel werden of volledig instorten.

Een bredere crisis van vertrouwen voor AI-benchmarks

Dit incident onderstreept een groeiende crisis van vertrouwen binnen de AI-industrie. Terwijl bedrijven naar topcompetitieve leaderboards racen, komt de integriteit van de benchmarks zelf in twijfel. De druk om uit te voeren kan leiden tot”lesgeven aan de test”, waar modellen specifiek worden getraind op ACE-evaluaties.

Dit is een systemisch probleem dat verder gaat dan elk bedrijf. De betrouwbaarheid van benchmarks is van fundamenteel belang voor het volgen van echte vooruitgang in AI. Wanneer deze evaluatiehulpmiddelen worden aangetast, wordt het moeilijk om onderscheid te maken tussen echte innovatie en slimme optimalisatie.

In reactie op het onderzoek heeft het Qwen-team van Alibaba een openbare verklaring uitgegeven die de claims van de gegevensverontreiniging aanpakt en dat hun toewijding om de integriteit te benchmarken opnieuw te evolueren.

Categories: IT Info