Para treinar modelos de IA com trilhões de parâmetros, a Microsoft confirmou em 13 de novembro que está construindo uma “superfábrica de IA” em todo o continente. O projeto conecta datacenters especializados em um único supercomputador virtual, uma estratégia projetada para superar as limitações locais de energia e terreno.
O primeiro nó nesta rede de alta velocidade está agora online, conectando as novas instalações “Fairwater” da empresa em Wisconsin e Atlanta, Geórgia. recurso.
Uma “superfábrica de IA” abrangendo estados
O ambicioso projeto da Microsoft redefine o conceito de campus de datacenter. Em vez de concentrar toda a sua computação em uma área geográfica, a empresa está criando uma rede distribuída que funciona como uma máquina coesa.
Esta abordagem aborda diretamente os principais gargalos no dimensionamento da infraestrutura de IA: garantir terreno suficiente e, mais importante, megawatts de energia em um só lugar.
A primeira conexão, ligando Wisconsin e Atlanta a uma distância de 700 milhas, está agora operacional, provando a viabilidade do conceito. Esse movimento é uma parte essencial da intensa corrida armamentista de IA, onde o controle da computação é fundamental.
Microsoft Atlanta Datacen (Imagem: Microsoft)
Essa estratégia permite que a Microsoft coloque datacenters em locais com condições mais favoráveis, como terrenos mais baratos, climas mais frios ou acesso a energia renovável, sem sacrificar o desempenho de um cluster único e monolítico.
“Trata-se de construir uma rede distribuída que possa atuar como um supercomputador virtual para enfrentar os maiores desafios do mundo de várias maneiras. que você simplesmente não poderia fazer em uma única instalação”, disse Alistair Speirs, gerente geral da Microsoft com foco na infraestrutura do Azure, em um anúncio da empresa.
Microsoft Wisconsin Datacenter via Microsoft (Imagem: Microsoft)
A escala dessa visão é imensa, pois a empresa acredita que os futuros modelos de IA exigirão poder computacional muito além do que qualquer local pode fornecer. “A quantidade de infraestrutura necessária agora para treinar esses modelos não é apenas um datacenter, nem dois, mas múltiplos deles”, explicou Mark Russinovich, CTO do Microsoft Azure.
Esta construção interna representa um dos pilares de uma estratégia dupla, complementando acordos de terceirização massivos, como seu recente contrato de US$ 9,7 bilhões com a IREN para garantir capacidade de GPU externa.
A arquitetura Fairwater: construída especificamente para um trilhão de parâmetros. Modelos
Dentro de cada instalação de Fairwater, a Microsoft projetou uma nova arquitetura otimizada exclusivamente para treinamento de IA em larga escala. Esses não são datacenters tradicionais projetados para executar milhões de aplicativos de clientes separados.
Em vez disso, eles são criados especificamente para executar um trabalho enorme e complexo em todo o hardware disponível. Os próprios edifícios apresentam um design de dois andares, uma opção que aumenta a densidade da GPU e reduz a distância física que os sinais devem percorrer, minimizando a latência.
Essa integração vertical de hardware e instalações se alinha com o esforço mais amplo da Microsoft para controlar toda a sua pilha de IA, incluindo sua recente mudança para licenciar os designs de chips personalizados da OpenAI.
Essa densidade cria um calor imenso, que a Microsoft aborda com um avançado sistema de refrigeração líquida direto no chip. O design de circuito fechado consome “quase zero de água”em suas operações, um ganho de eficiência significativo.
Em sua instalação em Atlanta, a Microsoft implantará os poderosos sistemas de rack GB200 NVL72 da Nvidia, com cada rack capaz de consumir mais de 140 quilowatts e abrigando 72 GPUs.
Toda essa pilha de hardware é projetada para desempenho máximo, garantindo que nenhum componente se torne um gargalo. “Liderar em IA não se trata apenas de adicionar mais GPUs – trata-se de construir a infraestrutura que as faz trabalhar juntas como um sistema”, afirmou Scott Guthrie, vice-presidente executivo de Cloud + AI da Microsoft.
Tecendo um computador do tamanho de um continente com rede de alta velocidade
Conectar datacenters a centenas de quilômetros de distância apresenta desafios de latência significativos, mas é a chave para desbloquear essa nova escala. A Microsoft construiu uma “AI Wide Area Network” (AI WAN) dedicada para superar essas distâncias.
Esse backbone privado é construído em uma surpreendente 190.000 quilômetros de novos e dedicados cabo de fibra óptica, garantindo que os dados de treinamento de IA não concorram com o tráfego geral da Internet.
O objetivo é fazer com que sites geograficamente separados se comportem como se estivessem em um único prédio, mantendo as caras GPUs constantemente utilizadas.
Isso requer hardware de rede especializado e de alta largura de banda, capaz de manter o desempenho em grandes distâncias.
Embora a Microsoft não tenha nomeado oficialmente seu fornecedor, a indústria produziu várias soluções poderosas para esse problema exato. O Jericho4 ASIC da Broadcom, por exemplo, foi projetado para esse tipo de interconexão de datacenter a datacenter (DCI).
“Se você estiver executando um cluster de treinamento e quiser crescer além da capacidade de um único edifício, somos a única solução válida por aí”, observou Amir Sheffer, da Broadcom.
Da mesma forma, a Cisco desenvolveu seu roteador 8223 para conectar datacenters de IA com até 1.000 quilômetros de distância, com a Microsoft nomeada como uma das primeiras avaliadoras da tecnologia.
Relatórios recentes acrescentam que a rede interna usa um back-end Ethernet de duas camadas executando o sistema operacional SONiC (Software for Open Networking in the Cloud) da Microsoft, com conectividade de 800 Gbps por link.
Dada a profunda parceria da Microsoft com a Nvidia, a plataforma Spectrum-XGS da gigante da GPU também é uma forte concorrente para a malha que conecta esses sites. Essa abordagem de hardware de vários fornecedores é fundamental para evitar o aprisionamento, uma estratégia que a Microsoft está adotando em toda a sua pilha, incluindo esforços para fazer o software CUDA da Nvidia funcionar em chips AMD concorrentes.
Ao dominar tanto a construção física quanto a rede complexa que une tudo, a Microsoft está se posicionando para controlar a camada fundamental para a próxima era de desenvolvimento de IA.