A NVIDIA entrou na pequena arena de modelos de IA competitiva com o lançamento do Nemotron-Nano-9B-V2, um modelo de código aberto poderoso e eficiente de 9 bilhões de parâmetros. Disponível agora, o modelo apresenta uma nova arquitetura híbrida Mamba-Transformer, projetada para alta taxa de transferência em uma única GPU. O lançamento posiciona a NVIDIA como um participante importante no mercado crescente de IA menor e amigável comercial, desafiando diretamente inovações recentes. À medida que a indústria lida com os altos custos dos modelos de fronteira, aumentou a demanda por alternativas eficientes, porém capazes,. A entrada da NVIDIA desafia diretamente liberações recentes de concorrentes como Alibaba e Deepseek. é um sistema finamente ajustado projetado para acessibilidade e energia. O Nemotron-Nano-9B-V2 é um modelo de 9 bilhões de parâmetros deliberadamente compactado de um maior 12llion Essa poda foi uma decisão estratégica de garantir que ela pudesse funcionar com eficiência em uma única GPU da NVIDIA A10, uma peça de hardware popular e amplamente implantada no setor empresarial. O modelo foi podado para ajustar especificamente o chip A10. href=”https://twitter.com/ArtificialAnlys?ref_src=twsrc%5Etfw” target=”_blank”>@ArtificialAnlys Intelligence Index leaderboard among open models within… pic.twitter.com/zs5gtdzjsk

-desenvolvedor nvidia ai (@nvidiaaidev) 18, 2025

Desenvolvedores Mais opções para ajuste fino personalizado. Também é altamente versátil, lidando com vários idiomas, incluindo inglês, alemão, espanhol e japonês, e é adepto de tarefas complexas de seguidores e geração de código, de acordo com a Nvidia.

O desempenho do modelo nos principais benchmarks da indústria é onde sua vantagem competitiva se torna clara. Em seu Relatório técnico oficial , nvidia detalha um conjunto de resultados fortes. No raciocínio complexo, atinge 72,1% no AIME25 e 64,0% no GPQA. Para a solução matemática de problemas, ele obtém 97,8% em math500. O modelo protege uma pontuação de 71,1% na avaliação da codificação do LivecodeBench e demonstra um entendimento robusto de longo contexto, com 78,9% no teste do governante 128K. Na instrução seguinte, atinge 90,3% no IFEVAL, mostrando sua confiabilidade. Em geral, os benchmarks mostram maior precisão do que o QWEN3-8B do Alibaba, um ponto de comparação comum no espaço SLM. Isso estabelece o Nemotron-Nano como uma nova opção formidável para desenvolvedores que buscam desempenho de primeira linha em um pacote compacto e eficiente. href=”https://research.nvidia.com/labs/adlr/nvidia-nemotron-nano-2/”Target=”_ Blank”> Arquitetura híbrida sofisticada mamba-transformer . Esse design é uma resposta direta às limitações dos grandes modelos de linguagem tradicionais. Os LLMs mais populares são os modelos “Transformer” puro, que dependem inteiramente de camadas de atenção. Embora poderosos, essas camadas se tornam extremamente caras na memória e calculam à medida que a duração da sequência de texto cresce, um problema que escala quadraticamente. O Mamba incorpora modelos de espaço de estado seletivo (SSMS), que podem processar sequências muito longas de informação, mantendo um estado contínuo, permitindo que eles escalem linearmente com o comprimento da sequência.

Essa abordagem híbrida gera ganhos substanciais de desempenho. Ao substituir a maioria dos mecanismos de atenção caro por essas camadas de espaço de estado linear, o modelo pode atingir até seis vezes maior rendimento em contextos longos em comparação com modelos de transformadores de tamanho semelhante, sem uma queda significativa na precisão. Isso o torna ideal para tarefas que envolvem documentos longos ou históricos de bate-papo extensos. O modelo é o padrão de gerar um rastreamento de raciocínio antes de fornecer uma resposta final, mas os desenvolvedores podem usar tokens de controle simples como `/pense` para solicitar explicitamente esse processo passo a passo ou`/no_hink` para ignorá-lo para um recurso mais rápido e direto. Isso permite que os desenvolvedores limitem o número de tokens que o modelo dedica ao seu raciocínio interno antes de concluir uma resposta. Esse mecanismo fornece uma alavanca crucial para equilibrar a precisão da latência, uma preocupação importante em aplicativos de produção como suporte ao cliente ou agentes autônomos onde a velocidade de resposta é crítica. Esse recurso foi deliberadamente projetado durante o pós-treinamento, onde cerca de 5% dos dados continham traços de raciocínio truncados, permitindo esse controle orçamentário de granulação fina em tempo de inferência. seu próprio Contrato de Licença de Modelo Aberto da Nvidia Admissiva . A licença é explicitamente projetada para ser comercialmente amigável, afirmando que os modelos são utilizáveis comercialmente prontos para uso. Isso permite que as organizações baixem, modifiquem e implantem livremente o modelo em produção imediatamente, sem negociar uma licença separada ou pagar taxas vinculadas ao uso, receita ou contagem de usuários. Essa abordagem aberta contrasta fortemente com licenças abertas em camadas de outros fornecedores, que geralmente exigem um contrato pago quando uma empresa atinge uma certa escala. Os desenvolvedores também são livres para criar e distribuir modelos derivativos, promovendo um ecossistema colaborativo.

A licença, no entanto, inclui várias condições padrão focadas no uso responsável. As empresas não devem ignorar os corrimãos de segurança internos sem implementar substituições comparáveis. Qualquer redistribuição do modelo ou de seus derivados deve incluir o texto da licença e a atribuição adequada. Além disso, o uso deve cumprir com os regulamentos comerciais e se alinhar às diretrizes de IA confiável da NVIDIA, e uma cláusula de litígio protege o ecossistema, encerrando a licença para usuários que processam outras pessoas por violação pelo modelo de que o modelo”

também lança a maioria dos dados de um dos principais dados. O maciço nemotron-training-dataset-v1″dados, oferecendo transparência sem precedentes.

Este conjunto de dados está organizado em quatro categorias principais. Ele inclui um conjunto de dados focado em matemática criado com um novo pipeline para preservar equações complexas, um conjunto de dados de código com curadoria em larga escala do GitHub com filtragem de vários estágios e um conjunto de dados de cobertura sinteticamente gerado, cobrindo os domínios STEM, acadêmicos e raciocínio. Ele também apresenta uma nova versão do rastreamento da Web Nemotron-CC, aprimorado com pares de perguntas e respostas sintéticas traduzidas em 15 idiomas para suportar recursos multilíngues robustos.

O modelo e seus conjuntos de dados estão agora disponíveis para Download no abraço de face e através do catalog do modelo da NVIDIA. Ao fornecer não apenas um modelo poderoso, mas também os vastos dados de alta qualidade em que foram treinados, a Nvidia está oferecendo um kit de ferramentas abrangente. Essa estratégia tem como objetivo capacitar desenvolvedores e acelerar a inovação, dando-lhes as ferramentas para o alto desempenho e a eficiência de implantação.

Categories: IT Info