A
Nvidia lançou o OpenReionessing-Nemotron, uma nova família de modelos de IA de código aberto poderosos e eficientes. Anunciado em 19 de julho de 2025 e Disponível globalmente via face de abraço , o conjunto de modelos de Modelos Ao destilar os recursos do enorme modelo 671B R1-0528 da Deepseek, um dos principais sistemas de IA da China. Essa estratégia fornece aos desenvolvedores acesso gratuito e comercialmente permissivo ao raciocínio de ponta IA. Isso evita a necessidade de recursos de computação em escala de fronteira, abrindo portas para equipes e pesquisadores menores.
Distilação do poder de um modelo de fronteira
No núcleo da abertura de abertura de abertura, é uma estratégia sofisticada de destilação. A NVIDIA alavancou o modelo Deepseek-R1-0528 recentemente atualizado, uma potência de 671 bilhões de parâmetros, para ensinar modelos menores suas habilidades avançadas de raciocínio. O processo transfere capacidade generalizada de raciocínio em arquiteturas mais compactas com base na estrutura QWEN 2.5 do Alibaba.
Os resultados são impressionantes. De acordo com os benchmarks da NVIDIA, os modelos Nemotron estabelecem novas pontuações de aprovação de ponta a classes de tamanho. O modelo 32B, por exemplo, pontua 89,2 no AIME24 e 70.2 no LivecodeBench sem ajuste especial. Este método gera múltiplas soluções em potencial e usa o modelo para selecionar o melhor, aprimorando significativamente a precisão em problemas No HMMT FEB 2025 A referência matemática salta de 73,8 para um incrível 96,7, demonstrando poderosos recursos de raciocínio emergentes em escala. A Deepseek fez ondas em maio de 2025 com sua atualização R1-0528, alegando que seu desempenho estava”abordando o dos principais modelos, como O3 e Gemini 2.5 Pro”, de concorrentes como OpenAi e Google. Em abril de 2025, um comitê da Câmara dos EUA rotulou a Deepseek como um risco de segurança nacional. O presidente do comitê, John Moolenaar, emitiu um aviso gritante sobre a empresa. Ele afirmou:”Este relatório deixa claro: o Deepseek não é apenas mais um aplicativo de IA-é uma arma no arsenal do Partido Comunista Chinês, projetado para espionar os americanos, roubar nossa tecnologia e subverter a lei dos EUA”. O uso do modelo por Nvidia destaca a natureza interconectada do desenvolvimento global da IA. Eles são projetados para facilitar a integração com ferramentas como o NVIDIA Nemo Framework, Tensorrt-llm e abraçar transformadores de rosto, facilitando a implantação rápida. Isso permite que a comunidade de pesquisa se baseie nesses modelos para explorar novas técnicas de RL para raciocínio, potencialmente acelerando todo o campo.