A Divisão de AI da

Alibaba está enfrentando escrutínio depois que um novo estudo acadêmico alegou que seu modelo QWEN2.5 alcançou as principais pontuações em um benchmark matemático importante, aledizado por”trapaça”. Pesquisadores da Fudan University e da UC Davis publicaram um artigo em 18 de julho de 2025, fornecendo evidências de que o modelo foi treinado nas perguntas do teste.

Isso permitiu memorizar respostas em vez de demonstrar raciocínio genuíno. As descobertas desafiam as reivindicações anteriores de Alibaba de desempenho superior da IA. Eles também levantam questões mais amplas sobre a confiabilidade de referências padrão do setor como math-500, que são cruciais para a avaliação do mundo. medido. A contaminação de dados, onde os dados de teste vazam inadvertidamente em conjuntos de treinamento, podem inflar métricas de desempenho, o que pode criar uma impressão falsa dos recursos verdadeiros de um modelo e enganar a indústria. Campeão de Benchmark de Scandal de Trapaça

As alegações no artigo de pesquisa contrastam fortemente com os anúncios confiantes do Alibaba no início deste ano. Em janeiro de 2025, a empresa lançou sua série QWEN2.5, posicionando-a como um concorrente direto para modelos do Openai e Deepseek. A equipe de Qwen afirmou: “Esses modelos não são apenas sobre reconhecimento; eles se envolvem ativamente com as ferramentas, tornando-as capazes de executar tarefas complexas em dispositivos.”

Logo após, o Alibaba revelou QWEN 2.5-MAX, alegando que ele superou os rivais em vários quadros lideranças. Na época, a empresa afirmou:”Nossos modelos básicos demonstraram vantagens significativas na maioria dos benchmarks, e estamos otimistas de que os avanços nas técnicas de pós-treinamento elevarão a próxima versão do QWEN 2.5-MAX a novas alturas”. Essas reivindicações estão agora sob uma nuvem de suspeita.

A evidência: raciocínio ou memorização mecânica? Os pesquisadores testaram o modelo usando um método”Prompt Parcial”. Eles alimentaram Qwen2.5 apenas os primeiros 60% dos problemas da referência Math-500 para ver se poderia concluí-los.

Os resultados estavam dizendo. QWEN2.5 foi capaz de concluir os problemas literalmente com 54,6% de precisão e ainda resolvê-los corretamente. Por outro lado, o modelo LLAMA3.1-8B da Meta, que não foi treinado nos dados do teste, gerenciou uma taxa de conclusão de apenas 3,8%. Em vez disso, parece ter sido recuperar as informações que já haviam visto durante seu treinamento, efetivamente”regurgitando”as respostas que haviam memorizado de fontes como o Github, onde esses conjuntos de dados são comuns. Esse benchmark consiste em problemas aritméticos totalmente sintéticos, garantindo que nenhum modelo de IA existente poderia tê-los antes.

Nesse conjunto de dados limpo, o desempenho de Qwen2.5 mudou drasticamente. Sua precisão diminuiu à medida que os problemas se tornaram mais complexos, que é o comportamento esperado para um modelo que está realmente tentando raciocinar. Isso contrasta nítido com seu recall impecável no teste contaminado de Math-500.

Além disso, o estudo desmascarou teorias recentes de que sinais de recompensa aleatórios ou incorretos poderiam aumentar o raciocínio. No conjunto de dados limpo, o desempenho da QWEN2.5 só melhorou quando foi treinado com recompensas corretas. As recompensas aleatórias ou invertidas fizeram com que seu desempenho se tornasse instável ou colapso completamente. À medida que as empresas correm para as principais tabelas de classificação competitivas, a integridade dos próprios parâmetros de referência está entrando em questão. A pressão para executar pode levar ao “ensino para o teste”, onde os modelos são treinados especificamente para avaliações da ACE.

Este é um problema sistêmico que se estende além de qualquer empresa. A confiabilidade dos benchmarks é fundamental para rastrear o progresso real na IA. Quando essas ferramentas de avaliação são comprometidas, torna-se difícil distinguir entre inovação genuína e otimização inteligente.

Categories: IT Info