Nvidia revela Rubin CPX, uma GPU especializada para acelerar a inferência de Ai de longo contexto

A NVIDIA revelou o Rubin CPX, uma nova classe de propósito de GPU para acelerar a”fase de contexto”intensiva em computação da inferência de IA. Anunciados hoje, o chip foi projetado para lidar com grandes cargas de trabalho com mais de um milhão de tokens, como geração de vídeo e análise de código em larga escala. O Rubin CPX faz parte da próxima plataforma de Vera Rubin, que foi provocada pela primeira vez no GTC 2025 e é esperada no final de 2026. Target=”_ Blank”> Move Cria uma nova categoria de hardware especializada, com o objetivo de melhorar a lucratividade das fábricas de IA. Também estende o domínio da Nvidia sobre os concorrentes, muitos dos quais ainda estão lutando para desenvolver alternativas de uso geral.

Inferência desagregada: uma nova arquitetura para as cargas de trabalho mais difíceis da IA

A estratégia aborda um gargalo fundamental na IA moderna. Como a NVIDIA explica, a inferência não é uma única tarefa, mas duas cargas de trabalho distintas com requisitos diferentes. A segunda, a fase”geração”ou”decodificar”, é intensiva em memória, produzindo o token de saída por token. Para aplicações com entradas maciças, isso cria um problema de desempenho significativo. De acordo com Shar Narasimhan, diretor de produtos da NVIDIA, uma única GPU de uso geral é forçado a lidar com as duas tarefas quando é realmente otimizado apenas para um, criando um compromisso arquitetônico que dificulta a eficiência. A idéia principal é processar essas fases de forma independente, permitindo a otimização direcionada de recursos de computação e memória. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-celereates-inference-performance-and-eficiente-for-1m-token-context-workloads/”Target=”_ Blank”> melhora o título, reduz a latência e aprimora o recurso geral A NVIDIA já provou o poder da estratégia no software, usando sua camada de orquestração dinâmica para rotear de forma inteligente tarefas em seu hardware Blackwell existente.

Esta desagregação baseada em software foi fundamental em Definindo novos registros de desempenho nos resultados mais recentes de inferência MLPerf . O Rubin CPX agora representa a manifestação física dessa estratégia comprovada, passando da otimização de software para o silício criado para fins específicos.

Esse foco em hardware especializado sinaliza uma maturação do mercado. Ele vai além de simplesmente adicionar mais energia bruta a um único design de chip e para uma otimização mais sofisticada e de pilha completa de todo o fluxo de trabalho da IA. T

É um princípio central da visão”Ai Factory”da empresa, onde maximizar o desempenho e o retorno do investimento é o objetivo final. projetado para a fase de contexto. Ele fornece um formidável 30 petaflops de computação NVFP4 e está equipado com 128 GB de memória GDDR7. Ao optar por GDDR7 na memória de alta largura de banda mais cara (HBM) normalmente usada em GPUs focadas em geração, a empresa pode fornecer desempenho adequado para a tarefa de pré-preenchimento ligada a computação e, ao mesmo tempo, melhorar significativamente o retorno geral do investimento do sistema. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-celereates-inference-performance-and-eficiente-for-1m-token-context-workload/”Target=”_ Blank”> Três vezes mais aceleração em comparação com a corrente GB3 NV. A métrica, como o mecanismo de atenção é o coração computacional dos modelos de transformadores. Acelerar é essencial para o processamento de eficiência as sequências de dados extremamente longas encontradas em contextos de um milhão de toques. Plataforma de servir desagregada de alto desempenho, alojada em um único rack. Essa configuração fornece 8 exaflops impressionantes do potência de computação total NVFP4-um aumento de 7,5 vezes em relação ao já formidável GB300 NVL72. O rack inteiro está interconectado com o Infiniband Quantum-X800 ou o Spectrum-X Ethernet e orquestrado pela plataforma de software NVIDIA Dynamo. Espera-se que a plataforma completa esteja disponível no final de 2026. Toda a indústria tecnológica está correndo para desenvolver aceleradores de IA proprietários, dos chips de trenium da Amazon aos processadores MTIA da Meta. No entanto, muitos lutaram com a imensa dificuldade do design de chips.

A Microsoft, por exemplo, enfrentou contratempos significativos com seus projetos internos de silício, com seu chip’Braga’atrasado e com desempenho inferior. Embora os concorrentes ainda estejam tentando construir uma única GPU para corresponder ao desempenho geral da NVIDIA, o líder de mercado já está segmentando o espaço do problema com co-processadores especializados. A abordagem desagregada de Nvidia representa uma filosofia arquitetônica fundamentalmente diferente. A Nvidia está reforçando sua liderança no mercado.

Shar Narasimhan, diretor de produtos da NVIDIA, disse que a nova arquitetura”aumentará drasticamente a produtividade e o desempenho das fábricas de IA”. Com sua chegada programada para o final de 2026, a NVIDIA não está apenas construindo chips; Está arquitetando o futuro do data center de IA, um componente especializado por vez.

Nvidia revela Rubin CPX, uma GPU especializada para acelerar a inferência de Ai de longo contexto

Published by All Things Windows on September 9, 2025

Inferência desagregada: uma nova arquitetura para as cargas de trabalho mais difíceis da IA

IT Info

Correção: Falta o calendário compartilhado após reiniciar o Outlook.

IT Info

A Microsoft torne a Claude AI da Microsoft para o Microsoft 365, sinalizando uma grande mudança na parceria Openai

IT Info

Por que jogar quebra-cabeças online é melhor do que offline: 7 razões inesperadas

Nvidia revela Rubin CPX, uma GPU especializada para acelerar a inferência de Ai de longo contexto

Published by All Things Windows on September 9, 2025

Inferência desagregada: uma nova arquitetura para as cargas de trabalho mais difíceis da IA ​​

Related Posts

IT Info

Correção: Falta o calendário compartilhado após reiniciar o Outlook.

IT Info

A Microsoft torne a Claude AI da Microsoft para o Microsoft 365, sinalizando uma grande mudança na parceria Openai

IT Info

Por que jogar quebra-cabeças online é melhor do que offline: 7 razões inesperadas

Inferência desagregada: uma nova arquitetura para as cargas de trabalho mais difíceis da IA