TL;DR

A essência: DeepSeek expandiu significativamente seu documento técnico R1 para revelar seu pipeline de treinamento completo antes do suposto lançamento do modelo V4. Detalhes principais: A atualização de 86 páginas revela um processo de “desenvolvimento” de três estágios e admite que métodos padrão da indústria, como o Monte Carlo Tree Search, falharam no raciocínio. O que vem a seguir: Os relatórios indicam que o novo carro-chefe V4 chegará em meados de fevereiro, mudando o foco do raciocínio puro para o domínio da engenharia de software. Por que é importante: Essa transparência estabelece o estado da técnica para as técnicas do R1, ao mesmo tempo que abre caminho para a empresa se orientar em direção ao mercado de codificação empresarial.

Revisando silenciosamente a documentação técnica de seu principal modelo R1, a DeepSeek expandiu seu whitepaper em mais de 60 páginas para revelar a receita completa do treinamento. Esta divulgação parece limpar o terreno para um suposto lançamento de “V4″ visando o domínio da codificação.

Lançado sem alarde no arXiv, o relatório v2 detalha um pipeline de treinamento “Dev” de três estágios e admite que métodos padrão da indústria como Monte Carlo Tree Search (MCTS) falharam por raciocínio geral.

Relatórios sugerem que o laboratório chinês lançará seu próximo modelo em meados de fevereiro, mudando o foco da lógica pura para desafiar a Anthropic e a OpenAI na engenharia de software.

Promo

A atualização do ‘livro aberto’: dados de 64 páginas Dump

Sem um comunicado à imprensa ou anúncio nas redes sociais, a a atualização v2 apareceu no arXiv em 4 de janeiro, aumentando o tamanho do arquivo de 928 KB para 1,5 MB. Expandindo de 22 para 86 páginas, o documento transforma um artigo acadêmico padrão em um manual técnico abrangente.

O centro da divulgação é o pipeline de treinamento “Dev”, um processo de três estágios anteriormente oculto por trás da abstração “Aprendizagem por Reforço”.

Dev1 representa a fase de “início a frio”, onde o modelo aprendeu a seguir as instruções, mas sofreu um declínio na capacidade de raciocínio. O Dev2 foi projetado especificamente para lidar com essa regressão, aplicando aprendizado de reforço direcionado para restaurar a lógica matemática.

O relatório técnico divide o pipeline “Dev” em três fases distintas, cada uma abordando uma compensação específica no treinamento do modelo. O processo começa com Dev1, uma fase de “inicialização a frio” focada no seguimento de instruções. Embora isso tenha melhorado significativamente a capacidade do modelo de entender as solicitações do usuário, o relatório observa que isso teve um custo: um declínio perceptível nas capacidades de raciocínio bruto.

Para corrigir essa regressão, Dev2 foi projetado como uma fase de “resgate”. Ao aplicar o Aprendizado por Reforço (RL) orientado ao raciocínio, a equipe conseguiu restaurar as proficiências matemáticas e de codificação sem sacrificar os ganhos de seguimento de instruções obtidos na primeira etapa.

O ciclo termina com Dev3, uma camada final de refinamento. Esta etapa utiliza amostragem de rejeição para gerar dados sintéticos de alta qualidade, seguida por uma segunda rodada de ajuste fino supervisionado (SFT). O resultado é um modelo capaz de gerar resultados estáveis ​​tanto em tarefas de raciocínio especializadas quanto em consultas de uso geral.

O Dev3 atuou como a camada de refinamento final, utilizando amostragem de rejeição para estabilizar os resultados para tarefas de uso geral. A granularidade deste nível aborda as acusações de que o modelo original dependia da destilação, provando que as capacidades eram auto-derivadas.

Rejeitando o dogma da indústria: por que o MCTS falhou

Em um movimento raramente visto na pesquisa corporativa de IA, o documento técnico atualizado inclui uma seção detalhada de “Tentativas malsucedidas”. Admitindo explicitamente o fracasso, o laboratório observa que Monte Carlo Tree Search (MCTS), uma técnica popularizada por AlphaGo, não conseguiu fornecer resultados no raciocínio geral.

O O relatório detalha como a equipe testou e, por fim, descartou várias metodologias de alto perfil favorecidas por concorrentes ocidentais:

“DeepSeek admitiu que tentou MCTS (Monte Carlo Tree Search) e PRM (Process Reward Model). Essas duas rotas foram as direções de pesquisa mais quentes na indústria no ano passado.”

“O resultado foi que eles não funcionaram, pelo menos não em tarefas de raciocínio geral.”requisitos para a’granularidade de etapas’e são adequados para cenários como provas matemáticas onde cada etapa pode ser claramente verificada, mas é difícil generalizá-los para tarefas de raciocínio mais abertas.”

Os pesquisadores identificaram a questão central como”granularidade de etapas”; embora o MCTS funcione para provas de xadrez ou matemática rígida, ele luta com o raciocínio aberto onde as “etapas” são mal definidas. Tal admissão desafia as atuais estratégias de investimento de concorrentes como o Google DeepMind.

Os pesquisadores da DeepSeek observaram que as técnicas de otimização padrão muitas vezes entram em conflito com os requisitos de derivação lógica complexa: “Muitas tarefas matemáticas, como a prova de teoremas, exigem derivação passo a passo rigorosa em vez de respostas numéricas, tornando as recompensas de resposta final inaplicáveis.”

Ao publicar esses resultados negativos, a DeepSeek evita efetivamente que a comunidade de código aberto desperdice recursos de computação em caminhos sem saída. Em vez de um novo algoritmo de pesquisa complexo, a divulgação sugere que o desempenho do R1 resultou de uma aplicação altamente otimizada de PPO (Otimização de Política Proximal) padrão. target=”_blank”>um relatório do The Information, o próximo carro-chefe do DeepSeek, provisoriamente apelidado de “V4″, está programado para lançamento em meados de fevereiro. Alinhando-se com o Ano Novo Lunar (17 de fevereiro), o momento reflete a cadência de lançamento anterior da empresa.

Os benchmarks internos supostamente mostram que o V4 supera o Claude 3.5 Sonnet da Anthropic e o GPT-4o da OpenAI em tarefas de codificação.

Tal desempenho representaria uma grande mudança do foco do R1 em “raciocínio puro” (matemática/lógica) para “engenharia aplicada”. (desenvolvimento de software). Os atuais líderes de mercado estabelecem um padrão elevado; Claude Opus 4.5 atualmente detém o recorde verificado do SWE-bench com 80,9%.

Para reivindicar a coroa, o V4 precisaria demonstrar não apenas a geração de código, mas também capacidades “agenticas” em depuração e gerenciamento de repositório. A mudança para a codificação sugere que a DeepSeek tem como alvo o mercado de desenvolvedores corporativos, onde a geração de código de alta precisão gera ROI imediato.

Contexto Estratégico: Fornecimento Aberto Defensivo

A publicação da receita R1 completa provavelmente serve uma estratégia de “fonte aberta defensiva”, evitando que os concorrentes patenteiem esses fluxos de trabalho de RL específicos. Ao estabelecer a “técnica anterior” em domínio público, a DeepSeek garante que as técnicas usadas no R1 permaneçam acessíveis à comunidade de pesquisa.

Limpando a dívida técnica, o lançamento permite que a equipe se concentre totalmente na nova arquitetura do V4.

A mudança segue o recente lançamento da arquitetura mHC, que abordou a instabilidade de treinamento em hardware restrito. A transparência dos custos continua a ser uma arma fundamental; o documento reitera o custo de treinamento de US$ 294.000, destacando a lacuna de eficiência em relação aos modelos dos EUA.

Reforçando a narrativa de que arquiteturas especializadas podem competir com clusters de computação massivos, a atualização envia uma mensagem crítica dados os controles de exportação dos EUA.

Categories: IT Info