Dział AI
Alibaba jest poddawany kontroli po tym, jak nowe badanie akademickie twierdziło, że jego model QWEN2.5 osiągnął najlepsze wyniki w kluczowym wyniku matematyki, w całości przez „oszustwo”. Naukowcy z Fudan University i UC Davis opublikowali artykuł 18 lipca 2025 r., Dostarczając dowodów na to, że model został przeszkolony na temat pytań testowych.
To pozwoliło mu zapamiętać odpowiedzi, a nie wykazać prawdziwe rozumowanie. Odkrycia podważają wcześniejsze twierdzenia Alibaba o doskonałej wydajności sztucznej inteligencji. Rodzaj również szersze pytania dotyczące wiarygodności standardowych punktów odniesienia w branży, takich jak Math-500, , które są kluczowe dla oceny najsilniejszych systemów AI na świecie. zmierzone. Zanieczyszczenie danych, w których dane testowe przypadkowo wyciekają na zestawy szkoleniowe, mogą nadmuchać wskaźniki wydajności, co może stworzyć fałszywe wrażenie prawdziwych możliwości modelu i wprowadza w błąd branżę.
Zarzuty w dokumencie badawczym stoją w wyraźnym kontraście z pewnymi ogłoszeniami Alibaba na początku tego roku. W styczniu 2025 r. Firma uruchomiła serię QWEN2.5, pozycjonując ją jako bezpośredniego konkurenta do modeli z Openai i Deepseek. Zespół QWen stwierdził: „Te modele nie dotyczą tylko rozpoznawania; aktywnie angażują się w narzędzia, dzięki czemu są zdolni do wykonywania złożonych zadań na różnych urządzeniach.” Wkrótce potem Alibaba zaprezentowała QWEN 2.5-Max, twierdząc, że przewyższały rywale na wielu płytach liderowych. W tym czasie firma stwierdziła: „Nasze modele podstawowe wykazały znaczne zalety w większości punktów odniesienia i jesteśmy optymistami, że postępy w technikach po treningu podniesie następną wersję QWEN 2.5-Max na nowe wysokości”. Roszczenia te są teraz pod chmurą podejrzeń. Dowody: Rozumowanie czy zapamiętywanie na rote?