Uma”impressão digital”do plágio? O método analisa os padrões de desvio padrão das matrizes de parâmetros de atenção (Q, K, V, O) nas camadas de um modelo. Os pesquisadores argumentam que esses padrões são uma propriedade intrínseca da arquitetura e histórico de treinamento de um modelo. Honestagi afirma que essa impressão digital estatística é robusta o suficiente para sobreviver ao treinamento contínuo, uma técnica comum que pode apagar as marcas d’água tradicionais de um modelo roubado.
A análise de correlação dos gráficos de Honestagi
para reforçar seu caso, o grupo apontou para semelhanças arquitetônicas adicionais. Eles destacaram padrões quase idênticos nas projeções de viés de QKV e pesos de camadas de atenção. Os pesquisadores chegaram a descobrir um arquivo de licença QWEN dentro de o repositório oficial de código de Pangu no gitcode . Honestagi concluiu seu artigo afirmando: “Todos esses pontos são coincidências? Provavelmente não.”
De acordo com os pesquisadores, esses padrões exclusivos emergem naturalmente da arquitetura fundamental de um modelo e podem ser calculados com uma função básica, Torch.std (), aplicada às matrizes de parâmetros. Ao normalizar esses valores de desvio padrão em todas as camadas, eles criam uma assinatura distinta capaz de identificar a linhagem de um modelo, mesmo após modificações significativas como o treinamento contínuo. Eles destacaram que os padrões de viés QKV em Pangu foram uma partida quase perfeita para o QWEN 2.5. Eles chamaram isso particularmente de”condenando”, eles argumentam, porque o viés de QKV era uma característica distinta dos modelos QWEN Early, que já foram abandonados pela maioria dos projetos de código aberto, incluindo o próprio QWEN3 do Alibaba. O grupo observou que sua investigação está em andamento, com a análise inicial das ativações do modelo também mostrando sobreposição substancial. They also claimed to have received statements from multiple whistleblower that supported their hypothesis:
“We received messages from multiple whistleblowers (claimed to be) in their team. They confirmed the accusation towards Pangu Pro MoE and also confirmed that there exists a version of Pangu Ultra MoE that is “very similar”to DeepSeek-V3 (still upcycling, but in other ways, which matches the information provided by issues 2 & 4). Em 7 de julho, seu laboratório Noah Ark divulgou uma declaração afirmando que o modelo Pangu foi”… não baseado no treinamento incremental dos modelos de outros fabricantes…”e foi desenvolvido independentemente desde o início. O laboratório enfatizou que o modelo foi construído inteiramente sobre os chips AI de ascensão proprietários da Huawei. A negação enquadra o modelo Pangus como parte essencial de sua estratégia de autoconfiança, não um trabalho derivado. Em 2 de julho, a empresa de código aberto seus modelos Pangu, um movimento amplamente interpretado como um esforço para construir um ecossistema de software em torno de seu hardware. Como observou Mark Einstein, do Counterpoint,”seu objetivo é finalmente usar produtos de código aberto para impulsionar as vendas de hardware, que é um modelo completamente diferente de outros”. Essa abordagem de hardware é crucial para a sobrevivência e competitividade da Huawei.
O incidente ressalta a feroz competição no setor de IA da China, geralmente apelidada de”guerra de cem modelos”. Os gigantes da tecnologia como Alibaba, Baidu e agora Huawei estão de origem aberta agressivamente sua IA principal para capturar o desenvolvedor Mindshare e o domínio do mercado. O vácuo de hardware resultante fez com que os lascas de ascend de Huawei uma alternativa vital para os desenvolvedores domésticos. comprovado ou não, complica as ambições da Huawei. Isso levanta questões sobre transparência e confiança em um momento em que a empresa está tentando se posicionar como campeão nacional na IA. Como honestagi colocou, em uma época em que”continuar treinando não é tudo o que você precisa para roubar um modelo”, métodos robustos para verificar a proveniência do modelo estão se tornando essenciais para uma concorrência justa.