O DeepSeek mais uma vez quebrou o domínio exclusivo dos gigantes da tecnologia ocidentais sobre o raciocínio de elite, lançando um modelo de IA de peso aberto que corresponde ao desempenho da OpenAI e do Google em matemática.
Lançado na quinta-feira, o DeepSeekMath-V2 alcançou o padrão de Medalha de Ouro na Olimpíada Internacional de Matemática (IMO) de 2025.
Na William Lowell Putnam Mathematical Competition, a principal competição de matemática para estudantes universitários de graduação nos Estados Unidos. e no Canadá, o modelo obteve 118 pontos em 120, superando a pontuação humana máxima de 90. Ao contrário dos sistemas rivais escondidos atrás de APIs, o DeepSeek divulgou os pesos publicamente, permitindo aos pesquisadores inspecionar sua lógica diretamente.
Chegado durante o atraso do seu principal modelo R2 devido aos controles de exportação dos EUA, o lançamento sinaliza resiliência técnica. Isso prova que arquiteturas especializadas podem fornecer resultados de última geração mesmo quando o acesso a hardware de ponta é restrito.
O padrão ouro: quebrando o monopólio proprietário
O DeepSeekMath-V2 correspondeu oficialmente ao padrão “Medalha de Ouro” na Olimpíada Internacional de Matemática (IMO) de 2025, resolvendo com sucesso 5 de 6 problemas. Correspondendo aos benchmarks proprietários estabelecidos pelo marco semelhante do Google DeepMind e pelo desempenho da medalha de ouro da OpenAI, esse desempenho nivela o campo de atuação com sistemas que antes eram intocáveis.
Longe de ser uma simples atualização iterativa, esta versão representa uma mudança fundamental no acesso ao raciocínio de elite da IA. Embora os laboratórios ocidentais tenham mantido seus modelos matemáticos mais capazes atrás de muros de “testadores confiáveis” ou APIs caras, o repositório de modelos do DeepSeekMath-V2 está disponível para download imediato.
Instituições acadêmicas e pesquisadores empresariais agora podem executar o modelo localmente, verificando seus recursos sem depender da infraestrutura em nuvem. que pode estar sujeito a preocupações com a privacidade de dados ou restrições geopolíticas.
Além da IMO, o modelo demonstrou capacidade sem precedentes na Competição Putnam, amplamente considerada como o exame de graduação em matemática mais difícil da América do Norte. Destacando a conquista, a equipe de pesquisa da DeepSeek declarou:
“Em Putnam 2024, a principal competição de graduação em matemática, nosso modelo resolveu 11 dos 12 problemas completamente e o problema restante com pequenos erros, marcando 118/120 e superando a pontuação humana mais alta de 90.”
Superar o teto humano em um exame tão rigoroso sugere que o modelo não está apenas recuperando provas memorizadas, mas também se engajando em novas resolução de problemas. Alcançar 118 em 120 é particularmente notável dada a extrema dificuldade dos problemas, onde as pontuações médias são historicamente baixas.
Análises independentes validaram ainda mais essas métricas internas. Avaliações no subconjunto “Básico” do IMO-ProofBench, um benchmark desenvolvido pelo Google DeepMind, mostram que o modelo alcançou uma taxa de sucesso de 99,0%, confirmando sua consistência de raciocínio em uma ampla gama de domínios matemáticos.
A verificação é crucial aqui, já que o campo foi recentemente atormentado por resultados exagerados, como uma afirmação retratada sobre o GPT-5 que alegava falsamente que o modelo havia resolvido problemas famosos Problemas de Erdős.
Ao liberar os pesos, a DeepSeek efetivamente comoditizou uma capacidade que foi considerada um importante fosso competitivo para o Vale do Silício apenas alguns meses atrás. Clement Delangue, cofundador e CEO da Hugging Face, enfatizou a importância dessa mudança em uma postagem no X:
Até onde eu sei, não existe nenhum chatbot ou API que dê acesso a um modelo medalhista de ouro da IMO 2025. Isso não apenas muda hoje, mas você pode baixar os pesos com a versão de código aberto Apache 2.0 do @deepseek_ai Math-V2 em @huggingface!
Imagine possuir o… pic.twitter.com/FbTcg1GcnE
— clem 🤗 (@ClementDelangue) 27 de novembro de 2025
Sob o capô: o avanço da’meta-verificação’
Historicamente, o desafio central na IA matemática tem sido a “alucinação”, em que os modelos chegam à resposta correta usando lógica falha, circular ou sem sentido. Em benchmarks de raciocínio quantitativo, os modelos muitas vezes conseguem adivinhar o número certo sem compreender os princípios subjacentes. A equipe de pesquisa da DeepSeek explicou o problema principal no documento técnico:
“Muitas tarefas matemáticas, como a prova de teoremas, exigem derivação passo a passo rigorosa em vez de respostas numéricas, tornando as recompensas de respostas finais inaplicáveis.”
Para resolver essa limitação fundamental, o documento técnico detalha uma nova arquitetura centrada na “Meta-Verificação”. Ao contrário dos métodos de verificação padrão que simplesmente verificam se uma resposta corresponde a uma referência, a abordagem do DeepSeek avalia o próprio processo de verificação.
O DeepSeek treina um modelo secundário para julgar a qualidade da análise do verificador, evitando que o modelo primário “jogue” o sistema de recompensa, produzindo provas que parecem convincentes, mas logicamente nulas.
Criando uma proteção contra hackers de recompensa, essa estrutura recursiva garante que o modelo seja recompensado apenas pelo rigor genuíno do raciocínio. Ao avaliar se os problemas identificados em uma prova justificam logicamente a pontuação, o sistema impõe consistência lógica estrita.
A base dessa arquitetura é um pipeline de treinamento de “inicialização a frio”. Em vez de depender de enormes conjuntos de dados externos de provas matemáticas formais, que são escassos e caros de curar, o modelo gera iterativamente os seus próprios dados de treino. Descrevendo a metodologia, os pesquisadores afirmam:
“Acreditamos que os LLMs podem ser treinados para identificar problemas de prova sem soluções de referência. Tal verificador permitiria um ciclo de melhoria iterativo: (1) usar feedback de verificação para otimizar a geração de provas, (2) dimensionar a computação de verificação para rotular automaticamente novas provas difíceis de verificar… e (3) usar este verificador aprimorado para otimizar ainda mais a geração de provas.”
“Além disso, um verificador de provas confiável nos permite ensinar geradores de provas.”avaliar provas como o verificador faz. Isso permite que um gerador de provas refine iterativamente suas provas até que não consiga mais identificar ou resolver quaisquer problemas.”
Através deste ciclo, o modelo inicializa seus próprios recursos. À medida que o verificador se torna mais preciso, ele pode identificar erros mais sutis na saída do gerador. Consequentemente, o gerador é forçado a produzir provas mais rigorosas para satisfazer o verificador aprimorado.
Essa dinâmica cria um ciclo de feedback positivo que dimensiona o desempenho sem exigir um aumento proporcional nos dados rotulados por humanos. No momento da inferência, o modelo emprega “computação escalonada em tempo de teste”. Em vez de gerar uma única resposta, o sistema gera 64 provas candidatas para um determinado problema.
Em seguida, ele executa o processo de verificação em todos os 64 candidatos para selecionar o caminho logicamente mais correto. Transferindo a carga computacional da fase de treinamento (escalonamento de parâmetros) para a fase de inferência (busca de raciocínio), esta abordagem se alinha às tendências mais amplas do setor em direção ao pensamento do “Sistema 2″, onde os modelos “ponderam” sobre um problema antes de apresentar uma solução. agilidade. O principal modelo R2 da DeepSeek enfrenta atrasos relacionados ao hardware devido a falhas persistentes durante o treinamento nos chips domésticos Ascend da Huawei.
Esse revés destacou a imensa dificuldade que as empresas chinesas enfrentam na construção de uma pilha de software em hardware emergente e não comprovado, sob a pressão dos controles de exportação dos EUA. Ao migrar para arquiteturas focadas na eficiência, o laboratório está demonstrando que ainda pode fornecer pesquisas de última geração.
O DeepSeekMath-V2 é baseado no DeepSeek-V3.2-Exp-Base, provando que os mecanismos de atenção esparsa introduzidos nesse modelo a partir de setembro estão prontos para produção.
Em outubro, a empresa lançou sua ferramenta de reconhecimento óptico de caracteres, que usou técnicas de eficiência semelhantes para compactar o processamento de documentos por dez vezes.
A disponibilidade de peso aberto coloca uma pressão significativa sobre os laboratórios ocidentais para justificar sua abordagem de código fechado.
À medida que o “fosso” da capacidade de raciocínio parece estar evaporando, o argumento de que a segurança exige manter esses modelos trancados a sete chaves torna-se mais difícil de sustentar quando recursos comparáveis estão disponíveis gratuitamente no Hugging Face.
Para a indústria mais ampla de IA, este lançamento sugere que modelos especializados e altamente otimizados podem oferecer um caminho viável a seguir, mesmo quando o acesso a clusters massivos de GPUs Nvidia é restrito.
Ao focar em inovações algorítmicas como meta-verificação e atenção escassa, a DeepSeek está conquistando um nicho competitivo que depende menos da escala de força bruta e mais da engenhosidade arquitetônica.