O Microsoft Azure implantou o primeiro cluster NVIDIA GB300 NVL72 em escala de supercomputador do mundo, um sistema enorme construído especificamente para seu parceiro, OpenAI.

O cluster de produção integra mais de 4.600 das mais recentes GPUs Blackwell Ultra da NVIDIA, fornecendo a imensa potência necessária para treinar e executar a próxima geração de modelos de IA.

O A implantação, localizada nos datacenters de IA da Microsoft, representa um marco importante em uma profunda aliança estratégica entre os três gigantes da tecnologia. O objetivo é acelerar drasticamente o desenvolvimento da IA, permitindo que a OpenAI construa modelos mais poderosos e complexos do que nunca, solidificando a liderança coletiva das empresas na corrida ferozmente competitiva da infraestrutura de IA.

Um novo gigante da supercomputação para OpenAI

O anúncio é o culminar de um esforço plurianual de coengenharia para construir uma infraestrutura capaz de lidar com cargas de trabalho de IA de ponta.

A Microsoft planeja que este cluster inicial seja o primeiro de muitos, com uma meta ambiciosa de escala para centenas de milhares de GPUs Blackwell Ultra em seus datacenters globais, um sinal claro de sua estratégia de IA de longo prazo.

Leia também: Por que a Microsoft pode ser a vencedora final quando a bolha de IA estourar

Esse investimento maciço permitirá o treinamento de modelos em semanas, em vez de meses, e apoiará o desenvolvimento de modelos com centenas de trilhões de parâmetros.

De acordo com Nidhi Chappell, vice-presidente corporativo da Microsoft, a “colaboração ajuda a garantir clientes como a OpenAI podem implantar infraestrutura de próxima geração em escala e velocidade sem precedentes.”

A Microsoft e a Nvidia afirmam que isso estabelece uma nova referência do setor para supercomputação de IA em escala de produção.

Nos bastidores: por dentro do cluster GB300 NVL72

No coração do supercomputador está o da NVIDIA sistema GB300 NVL72 em escala de rack com refrigeração líquida, uma arquitetura revelada no GTC em março de 2025. Cada unidade integra 72 GPUs Blackwell Ultra e 36 CPUs Grace em um único sistema coeso.

Este design denso oferece 1,44 exaflops de computação FP4 e fornece um pool unificado de 37 TB de memória rápida por sistema. O resfriamento líquido integrado é essencial para gerenciar a imensa produção térmica de uma configuração de alta densidade, permitindo desempenho máximo sustentado.

Para conectar mais de 4.600 GPUs em um supercomputador coeso, o cluster usa uma sofisticada arquitetura de rede de duas camadas. Dentro de cada rack, a malha NVLink de quinta geração da NVIDIA fornece 130 TB/s de largura de banda total. Isso efetivamente transforma as 72 GPUs em um acelerador único e massivo com memória compartilhada pool.

Para comunicação em todo o cluster, a Microsoft implantou a plataforma NVIDIA Quantum-X800 InfiniBand. Essa árvore gorda e sem bloqueios. fabric garante comunicação contínua e de alta velocidade com 800 Gb/s de largura de banda por GPU, um componente crítico para minimizar a sobrecarga ao treinar modelos ultragrandes em milhares de processadores.

A corrida armamentista de IA: um jogo de poder estratégico

Embora a implantação da Microsoft seja a maior até o momento, ela segue um movimento anterior do provedor de nuvem especializado CoreWeave. Em julho de 2025, a CoreWeave se tornou a primeira empresa a disponibilizar comercialmente a plataforma GB300, garantindo uma importante vantagem de ser pioneira no mercado.

 No entanto, o anúncio da Microsoft enfatiza cuidadosamente a natureza de “produção em escala” de seu cluster, sinalizando um novo nível de industrialização e capacidade que o distingue de implantações menores anteriores.

Esta mudança valida o pivô estratégico da Microsoft, primeiro relatado no final de 2024, para priorizar o GB300 em relação ao seu antecessor atrasado, o GB200. A implantação bem-sucedida é uma declaração de domínio na corrida armamentista da infraestrutura de IA, reforçando a posição da empresa contra os rivais da nuvem.

Ian Buck, vice-presidente de hiperescala e computação de alto desempenho da NVIDIA, destacou a importância do sistema para todo o campo, afirmando: “este sistema de engenharia conjunta oferece o primeiro cluster de produção GB300 em escala do mundo, fornecendo o mecanismo de supercomputação necessário para OpenAI servir modelos multitrilhões de parâmetros.”

Isso mostra o papel da plataforma como mecanismo líder para pesquisa e desenvolvimento de IA de ponta.

Além da Blackwell: Roteiro de Aceleração da NVIDIA

A arquitetura Blackwell representa o que há de mais moderno em aceleração de IA. O CEO da NVIDIA, Jensen Huang, enfatizou seu profundo impacto nas cargas de trabalho de raciocínio de IA, observando que “o Blackwell Ultra NVL72 acelera drasticamente as cargas de trabalho de raciocínio de IA, permitindo respostas quase instantâneas mesmo nos maiores modelos”. salto.

O roteiro agressivo da NVIDIA agora aponta para a plataforma Vera Rubin, que deverá estar disponível no final de 2026. Essa arquitetura futura introduzirá ainda mais especialização, como o recentemente anunciado coprocessador Rubin CPX, um chip desenvolvido especificamente para acelerar a “fase de contexto” de computação intensiva da inferência de IA.

Essa estratégia de “desagregação” inferência”sinaliza um mercado que está indo além das GPUs monolíticas de uso geral. Ao criar hardware especializado para partes específicas do fluxo de trabalho de IA, a NVIDIA está construindo um fosso competitivo mais profundo. Esse ritmo implacável de inovação destaca o amadurecimento do mercado de hardware de IA.

Por enquanto, a aliança Microsoft-NVIDIA-OpenAI estabeleceu um novo padrão para a infraestrutura que definirá a próxima era da inteligência artificial.

Categories: IT Info