Deepseek está apostando que os modelos alinhados de IA não precisam ser treinados sem parar-eles precisam de maneiras melhores de raciocinar através de seus resultados à medida que os geram. Em colaboração com a Universidade de Tsinghua, a empresa introduziu um novo método chamado Tuning (SPCT), uma técnica de modelagem de recompensa generativa projetada para operar durante a inferência, em vez de exigir dados de preferência em grande escala durante o treinamento. Target=”_ Blank”> Artigo de pesquisa publicado em 4 de abril e testado em um modelo chamado Deepseek-Grm-27b. Os resultados são impressionantes. O resultado: custos reduzidos, melhor escalabilidade e desempenho de última geração com modelos menores. respostas. O modelo Deepseek-GRM de 27 bilhões de parâmetros usando o SPCT atinge uma pontuação de 8,35 do MT-banco de 8,35-os modelos superando treinados com otimização direta de preferência (DPO), que obtém 7,58-sem aumentar o tamanho do modelo.
Os benchmarks independentes confirmam ainda que o SPCT permite que modelos menores correspondam ao desempenho de contrapartes muito maiores, como modelos de escala de 671B, alavancando a computação em tempo de inferência com 32 amostras por consulta.
Este processo de alinhamento foi projetado para escalar com tamanho do modelo. De acordo com o artigo, a vantagem do SPCT se torna mais aparente à medida que os modelos aumentam, oferecendo um caminho promissor a seguir para os desenvolvedores de IA que desejam evitar a rota intensiva em computação de aprendizado de reforço com o feedback humano (RLHF).
A arquitetura recursiva por trás do SPCT
em alerta é o spct é o MULT MULT MULT MULT MULT MULT MULT MULP MULP MULP MULP MULP MULP MULTIME Loop de síntese de princípios, geração de respostas, filtragem de crítica e refinamento de princípios. Cada estágio se baseia no último para melhorar incrementalmente a qualidade e o alinhamento da saída do modelo. Por exemplo, ao lidar com tarefas relacionadas à codificação, o modelo pode determinar que a eficiência da memória deve ter prioridade em relação ao tempo de execução e legibilidade. Esses princípios orientam a próxima fase, na qual o modelo gera uma resposta inicial dentro de uma janela restrita de 4.096-token. Ele avalia sua produção em relação aos princípios sintetizados e gera feedback para melhorias. Essas críticas são filtradas em tempo real por um modelo de meta recompensa (Meta-RM), que usa uma recompensa 512-dimensional incorporada para obter a qualidade de cada crítica. As críticas de baixa qualidade são descartadas para garantir a integridade do ciclo de refinamento.
A etapa final do loop é o refinamento principal. Usando a otimização baseada em gradiente, o modelo ajusta suas heurísticas de alinhamento interno com base em quão bem a crítica corresponde à resposta pretendida. Esse ajuste recursivo permite que o modelo converja iterativamente em saídas de alta qualidade, adaptando-se dinamicamente às especificidades de cada consulta sem exigir intervenção externa ou reciclagem. O modelo GRM-27B emprega 16 especialistas, com apenas dois ativados por token, e suporta janelas de contexto de até 128.000 tokens. A execução especulativa aumenta ainda mais o desempenho, pré-computando caminhos de crítica, reduzindo a latência durante a inferência.
O benchmarking de desempenho demonstra que o SPCT atinge vantagens significativas de rendimento. Ao processar lotes de quadro único, o sistema registra uma latência de 1,4 segundos e uma taxa de transferência de 42 tokens por segundo. Para tamanhos de oito lotes, a latência aumenta para 3,1 segundos, enquanto a taxa de transferência escala para 208 tokens por segundo. O resultado é um método prático e econômico que mantém a paridade de desempenho com modelos muito maiores. O modelo Deepseek-GRM, com 27 bilhões de parâmetros e o uso do SPCT, atinge um custo de treinamento de aproximadamente US $ 12.000, ao mesmo tempo em que oferece uma forte pontuação em MT-banch de 8,35. Por outro lado, o Nemotron-4, um modelo de parâmetros de 340b, incorre custa mais de US $ 1,2 milhão para atingir uma pontuação de 8,41 para o MT-Bench. O GPT-4O da OpenAI, com 1,8 trilhão de parâmetros, pontua 8,72 a um custo estimado de US $ 6,3 milhões. Treinamento CostDeepseek-GRM27B8.35 $ 12.000Nemotron-4340B8.41 $ 1,2 milhãoGPT-4O1.8T8.72 $ 6,3 milhão
Essas comparações submetem uma vantagem central do SPCT: ele obtém os resultados da Franctional e da Francção da Franctional e da Franctional e a Franctional, por uma fração, por uma fração, que é necessária, a flagrante, que é necessária, a fração. O SPCT oferece vantagens atraentes em sustentabilidade e flexibilidade. Ele elimina quase 90 % da anotação humana normalmente necessária para o alinhamento, reduzindo drasticamente os investimentos em trabalho de parto e tempo. Além disso, reduz o consumo de energia em 73 % em comparação com o DPO, tornando-o uma opção ambientalmente responsável para o desenvolvimento da IA.
A capacidade do SPCT para adaptação em tempo real também o diferencia. Os métodos tradicionais de alinhamento são limitados pela qualidade e escopo de seus conjuntos de dados de treinamento, tornando-os lentos para se ajustar a novas tarefas em evolução. Em contraste, a estratégia de inferência recursiva do SPCT permite que os modelos gerem e refinem princípios em tempo real, permitindo que eles lidem com entradas imprevisíveis e alterando os objetivos sem reciclagem. A equipe Deepseek está explorando ativamente a aplicação da SPCT em sistemas de aprendizado distribuído e de controle distribuído em tempo real, onde a colaboração entre vários agentes requer mecanismos de alinhamento adaptativo. Em 24 de março, a Deepseek lançou uma atualização de peso aberto do seu modelo Deepseek-V3 para abraçar o rosto sob uma licença do MIT, apelidado de Deepseek v3.1. O modelo, pesando 641 GB, é executado com eficiência no hardware local.
Desenvolvedor Awni Hannun, testando uma versão quantizada de 4 bits em um estúdio Apple Mac de 512 GB,
O modelo está disponível para abraçar o rosto em branco para os desenvolvedores que procuram para que você veja para experimentar para que os desenvolvedores sejam. O modelo é construído em um projeto de mistura de especialistas (MOE), no qual apenas cerca de 37 bilhões de parâmetros totais de 685 bilhões estão ativos durante qualquer etapa de inferência única. Essa configuração permite a geração com eficiência de memória e é aumentada por recursos arquitetônicos como atenção latente de várias cabeças (MLA) e previsão com vários toques (MTP), ambos projetados para melhorar a velocidade e a precisão da saída. Os modelos comerciais da Deepseek também. A Tencent confirmou durante a chamada dos ganhos do quarto trimestre de 2024, que ele integrou modelos Deepseek em produtos como o WeChat. Um executivo da tencent declarou: “A indústria e nós, dentro da indústria, estamos obtendo uma produtividade muito maior em um grande treinamento em modelos de idiomas de GPUs existentes sem precisar adicionar GPUs adicionais no ritmo previamente esperado.”Em 2023, os EUA bloquearam as vendas dos modelos A800 e H800. Em resposta, a Tencent teria feito ordens em massa para o H20, um chip de menor potência ainda permitido sob as regras atuais. O modelo anterior de Deepseek, R1, foi treinado usando apenas 2.048 GPUs H800-um número incomumente baixo para um modelo de fundação de seu tamanho. O SPCT se alinha ainda mais a essa estratégia, permitindo um melhor desempenho sem aumentar o número de amostras de treinamento ou depender da anotação de preferência em larga escala. Conforme relatado em 26 de fevereiro, a empresa acelerou sua linha do tempo original de maio para acompanhar o ritmo dos rivais. O modelo R1 chamou a atenção para sua eficiência, mas ficou aquém de áreas como raciocínio, precisão multilíngue e geração de código. Os concorrentes também estão se movendo agressivamente. A Microsoft integrou o modelo O1 do OpenAI no copiloto sem nenhum custo adicional e, em seguida, logo após o momento atualizou para O3-Mini-Hini-High. A Xai lançou o Grok 3, que supera o GPT-4O. O Google em março divulgou a Gemini 2.5 Pro Centro, recuperando posições de primeira vez em vários benchmarks e, logo após desbloquear o acesso gratuito a esse modelo para todos os usuários. Openai reagiu a todos esses desenvolvimentos após sua decisão de fevereiro de cancelar a liberação de seu modelo O3 mais poderoso para ser lançado de O3 e O4-mini em um futuro próximo, provavelmente está preocupado em ficar mais tarde no seu novo e-mail com o seu novo e-mail com o dia 4, com o primeiro final de semana. Frontier Language Models que introduzem grandes mudanças arquitetônicas ao expandir a presença da empresa em aplicativos de consumo e plataformas em nuvem.