Die KI-Abteilung von
Alibaba steht vor der Prüfung, nachdem eine neue akademische Studie behauptet hat, dass sein QWEN2.5-Modell auf einem wichtigen Mathematik-Benchmark von „Betrug“ die Top-Ergebnisse erzielt hat. Forscher der Fudan University und der UC Davis veröffentlichten am 18. Juli 2025 ein Papier, in dem es nachgewiesen hat, dass das Modell auf die Testfragen geschult wurde. Die Ergebnisse stellen die früheren Behauptungen von Alibaba auf überlegene KI-Leistung heraus. Sie werfen auch breitere Fragen zur Zuverlässigkeit von Branchen-Standard-Benchmarks wie Math-500, , die sich für die Bewertung des mächtigsten Ai-Systems des weltweit den mächtigsten Ai-Systemen des weltweit denkst. gemessen. Die Datenkontamination, bei der Testdaten versehentlich in Trainingssätze eindringen, können Leistungsmetriken auferlenken, was einen falschen Eindruck der wahren Fähigkeiten eines Modells erzeugen und die Branche irreführen kann. Benchmark-Champion zum Betrügen von Skandal
Die Vorwürfe in der Forschungspapier stehen in starkem Kontrast zu Alibabas zuversichtlichen Ankündigungen Anfang dieses Jahres. Im Januar 2025 startete das Unternehmen seine QWEN2.5-Serie und positionierte sie als direkte Konkurrent für Modelle von Openai und Deepseek. Das Qwen-Team behauptete: „In diesen Modellen geht es nicht nur um Anerkennung; sie beschäftigen sich aktiv mit Tools, was sie in der Lage ist, komplexe Aufgaben über Geräte hinweg auszuführen. Zu dieser Zeit erklärte das Unternehmen: „Unsere Basismodelle haben bei den meisten Benchmarks erhebliche Vorteile gezeigt, und wir sind optimistisch, dass die Fortschritte bei den Nachtrainingstechniken die nächste Version von QWEN 2,5-Max auf neue Höhen erhöhen werden.”Diese Behauptungen stehen jetzt unter einer Wolke des Verdachts. Die Forscher testeten das Modell mit einer „partiellen Eingabeaufforderung“-Methode. Sie fütterten Qwen2.5 nur die ersten 60% der Probleme aus dem Math-500-Benchmark, um festzustellen, ob es sie abschließen könnte.
Die Ergebnisse waren aussagekräftig. Qwen2.5 konnte die Probleme mit 54,6% Genauigkeit vervollständigen und sie trotzdem korrekt lösen. Im Gegensatz dazu verwaltete das LLAMA3.1-8B-Modell von Meta, das nicht in den Testdaten geschult wurde, eine Abschlussrate von nur 3,8%. Stattdessen scheint es Informationen abgerufen zu haben, die es bereits während seines Trainings gesehen hatte, und die Antworten, die es aus Quellen wie Github auswendig gelernt haben, in denen solche Datensätze häufig sind. Dieser Benchmark besteht aus vollständig synthetischen arithmetischen Problemen, die sicherstellen, dass sie zuvor kein vorhandenes KI-Modell hätte gesehen haben können. Seine Genauigkeit nahm ab, da die Probleme komplexer wurden, was das erwartete Verhalten eines Modells ist, das wirklich versucht, zu argumentieren. Dies steht in scharfem Kontrast zu seinem makellosen Rückruf zum kontaminierten Math-500-Test. Auf dem sauberen Datensatz verbesserte sich die Leistung von Qwen2.5 erst, wenn es mit korrekten Belohnungen trainiert wurde. Zufällige oder umgekehrte Belohnungen haben dazu geführt, dass seine Leistung instabil wurde oder vollständig zusammenbricht. Da Unternehmen wettbewerbsfähige Bestenlisten rennen, stellt sich die Integrität der Benchmarks selbst in Frage. Der Druck zur Durchführung kann zu „Lehre zum Test“ führen, wobei Modelle speziell für ACE-Bewertungen geschult werden.
Dies ist ein systemisches Problem, das über jedes einzelne Unternehmen hinausgeht. Die Zuverlässigkeit von Benchmarks ist grundlegend für die Verfolgung des echten Fortschritts in der KI. Wenn diese Evaluierungsinstrumente beeinträchtigt sind, wird es schwierig, zwischen echter Innovation und cleverer Optimierung zu unterscheiden.
Als Reaktion auf die Studie hat das QWEN-Team von Alibaba eine öffentliche Erklärung veröffentlicht, die sich mit den Datenkontaminationsansprüchen befasst und ihr Engagement für die Integrität der Benchmark-Integrität bekräftigt.