Dział AI

Alibaba jest poddawany kontroli po tym, jak nowe badanie akademickie twierdziło, że jego model QWEN2.5 osiągnął najlepsze wyniki w kluczowym wyniku matematyki, w całości przez „oszustwo”. Naukowcy z Fudan University i UC Davis opublikowali artykuł 18 lipca 2025 r., Dostarczając dowodów na to, że model został przeszkolony na temat pytań testowych.

To pozwoliło mu zapamiętać odpowiedzi, a nie wykazać prawdziwe rozumowanie. Odkrycia podważają wcześniejsze twierdzenia Alibaba o doskonałej wydajności sztucznej inteligencji. Rodzaj również szersze pytania dotyczące wiarygodności standardowych punktów odniesienia w branży, takich jak Math-500, , które są kluczowe dla oceny najsilniejszych systemów AI na świecie. zmierzone. Zanieczyszczenie danych, w których dane testowe przypadkowo wyciekają na zestawy szkoleniowe, mogą nadmuchać wskaźniki wydajności, co może stworzyć fałszywe wrażenie prawdziwych możliwości modelu i wprowadza w błąd branżę.

Mistrz Benchmark w skandale oszukiwania

Zarzuty w dokumencie badawczym stoją w wyraźnym kontraście z pewnymi ogłoszeniami Alibaba na początku tego roku. W styczniu 2025 r. Firma uruchomiła serię QWEN2.5, pozycjonując ją jako bezpośredniego konkurenta do modeli z Openai i Deepseek. Zespół QWen stwierdził: „Te modele nie dotyczą tylko rozpoznawania; aktywnie angażują się w narzędzia, dzięki czemu są zdolni do wykonywania złożonych zadań na różnych urządzeniach.”

Wkrótce potem Alibaba zaprezentowała QWEN 2.5-Max, twierdząc, że przewyższały rywale na wielu płytach liderowych. W tym czasie firma stwierdziła: „Nasze modele podstawowe wykazały znaczne zalety w większości punktów odniesienia i jesteśmy optymistami, że postępy w technikach po treningu podniesie następną wersję QWEN 2.5-Max na nowe wysokości”. Roszczenia te są teraz pod chmurą podejrzeń.

Dowody: Rozumowanie czy zapamiętywanie na rote?

Wyniki były wymienione. QWEN2.5 był w stanie wypełnić problemy dosłownie z dokładnością 54,6% i nadal je rozwiązać. Natomiast model LAMI3.1-8B Meta, który nie został przeszkolony na podstawie danych testowych, zarządzał wskaźnikiem ukończenia zaledwie 3,8%.

Ta rozbieżność zdecydowanie sugeruje, że QWEN2.5 nie rozumował od pierwszych zasad. Zamiast tego wydaje się, że pobierał informacje, które już widział podczas swojego treningu, skutecznie „regurgitując” odpowiedzi, które zapamiętała ze źródeł takich jak GitHub, w których takie zestawy danych są powszechne.

Test na czystym gruncie ujawnia prawdę

potwierdzić ich hipotezę, badacze stworzyli całkowicie nową, nieskrępowaną dane nazywane „losową skolacją”. Ten punkt odniesienia składa się z w pełni syntetycznych problemów arytmetycznych, gwarantując, że żaden istniejący model AI nie widział ich wcześniej.

Na tym czystym zestawie danych wydajność QWEN2.5 zmieniła się dramatycznie. Jego dokładność spadła, ponieważ problemy stały się bardziej złożone, co jest oczekiwanym zachowaniem modelu, który naprawdę próbuje rozumować. Jest to wyraźnie kontrastowe z nieskazitelnym wycofaniem w zanieczyszczonym teście Math-500.

Ponadto badanie obaliło ostatnie teorie, że losowe lub niepoprawne sygnały nagrody mogą zwiększyć rozumowanie. W czystym zestawie danych wydajność QWEN2.5 poprawiła się tylko wtedy, gdy została przeszkolona z prawidłowymi nagrodami. Losowe lub odwrócone nagrody spowodowały, że jego wydajność stała się niestabilna lub całkowicie się zawaliła.

szerszy kryzys zaufania dla testów porównawczych AI

Ten incydent podkreśla rosnący kryzys zaufania w branży AI. Gdy firmy ścigają się na najlepsze wyniki w liderach, integralność samych testów porównawczych pojawia się. Presja na działanie może prowadzić do „nauczania testu”, w którym modele są przeszkoleni specjalnie do oceny ACE.

Jest to problem systemowy, który wykracza poza każdą jedną firmę. Wiarygodność punktów odniesienia ma fundamentalne znaczenie dla śledzenia prawdziwego postępu w sztucznej inteligencji. Gdy te narzędzia oceny są zagrożone, trudno jest rozróżnić prawdziwą innowacje od sprytnej optymalizacji.

W odpowiedzi na badanie zespół QWen Alibaba wydał publiczne oświadczenie odnoszące się do roszczeń dotyczących zanieczyszczenia danych i potwierdzając ich zaangażowanie w integralność.