Per addestrare modelli di intelligenza artificiale con trilioni di parametri, il 13 novembre Microsoft ha confermato che sta costruendo una”superfabbrica di intelligenza artificiale”che si estenderà su tutto il continente. Il progetto collega data center specializzati in un unico supercomputer virtuale, una strategia progettata per superare i limiti di energia locale e del territorio.
Il primo nodo di questa rete ad alta velocità è ora online e collega le nuove strutture”Fairwater”dell’azienda nel Wisconsin e ad Atlanta, in Georgia.
Distribuendo enormi carichi di lavoro di intelligenza artificiale su centinaia di miglia, Microsoft mira a creare l’infrastruttura fondamentale necessaria per la prossima ondata di sviluppo dell’intelligenza artificiale, trattando efficacemente più stati come un’unica risorsa computazionale.
Una”superfabbrica di intelligenza artificiale”che abbraccia tutti gli Stati
L’ambizioso progetto di Microsoft ridefinisce il concetto di campus di data center. Invece di concentrare tutte le sue risorse di calcolo in un’unica area geografica, l’azienda sta creando una rete distribuita che funziona come un’unica macchina coesa.
Questo approccio affronta direttamente i principali colli di bottiglia nella scalabilità dell’infrastruttura AI: garantire abbastanza terreno e, cosa più importante, megawatt di energia in un unico luogo.
La prima connessione, che collega Wisconsin e Atlanta su una distanza di 700 miglia, è ora operativa, dimostrando la fattibilità del concetto. Questa mossa è una parte fondamentale dell’intensa corsa agli armamenti dell’intelligenza artificiale, in cui il controllo dell’elaborazione è fondamentale.
Microsoft Atlanta Datacen (Immagine: Microsoft)
Questa strategia consente a Microsoft di posizionare i data center in luoghi con condizioni più favorevoli, come terreni più economici, climi più freddi o accesso all’energia rinnovabile, senza sacrificare le prestazioni di un singolo cluster monolitico.
“Si tratta di costruire una rete distribuita che possa fungere da supercomputer virtuale per affrontare le più grandi sfide del mondo nei modi in cui tu semplicemente non si poteva fare in una singola struttura”, ha affermato Alistair Speirs, direttore generale di Microsoft specializzato nell’infrastruttura di Azure, in un annuncio aziendale.
Microsoft Wisconsin Datacenter tramite Microsoft (Immagine: Microsoft)
La portata di questa visione è immensa, poiché l’azienda ritiene che i futuri modelli di intelligenza artificiale richiederanno una potenza di calcolo ben superiore a quella che ogni singolo sito può fornire.”La quantità di infrastruttura richiesta ora per addestrare questi modelli non è solo un data center, non due, ma multipli di quello”, ha spiegato Mark Russinovich, CTO di Microsoft Azure.
Questa creazione interna rappresenta un polo di una duplice strategia, che integra massicci accordi di outsourcing come il recente contratto da 9,7 miliardi di dollari con IREN per garantire la capacità della GPU esterna.
The Fairwater Architecture: Purpose-Built for Trillion-Parameter Modelli
All’interno di ciascuna struttura Fairwater, Microsoft ha progettato una nuova architettura ottimizzata esclusivamente per la formazione sull’intelligenza artificiale su larga scala. Non si tratta di data center tradizionali progettati per eseguire milioni di applicazioni cliente separate.
Sono invece realizzati appositamente per eseguire un lavoro massiccio e complesso su tutto l’hardware disponibile. Gli edifici stessi presentano un design a due piani, una scelta che aumenta la densità della GPU e riduce la distanza fisica che i segnali devono percorrere, riducendo al minimo la latenza.
Questa integrazione verticale di hardware e strutture è in linea con la spinta più ampia di Microsoft a controllare l’intero stack AI, inclusa la sua recente mossa per concedere in licenza i progetti di chip personalizzati di OpenAI.
Questa densità crea un calore immenso, che Microsoft affronta con un avanzato sistema di raffreddamento a liquido direct-to-chip. Il design a circuito chiuso consuma “quasi zero acqua”nelle sue operazioni, un significativo aumento di efficienza.
Nella sede di Atlanta, Microsoft distribuirà i potenti sistemi rack GB200 NVL72 di Nvidia, con ciascun rack in grado di disegnare oltre 140 kilowatt e ospita 72 GPU.
L’intero stack hardware è progettato per le massime prestazioni, garantendo che nessun componente diventi un collo di bottiglia.”Essere leader nell’intelligenza artificiale non significa solo aggiungere più GPU, ma costruire l’infrastruttura che le fa funzionare insieme come un unico sistema”, ha affermato Scott Guthrie, vicepresidente esecutivo di Cloud + AI di Microsoft.
Tessure un computer delle dimensioni di un continente con una rete ad alta velocità
Collegare data center distanti centinaia di chilometri introduce sfide significative in termini di latenza, ma è la chiave per sbloccare questa nuova scala. Microsoft ha creato una”AI Wide Area Network”(AI WAN) dedicata per colmare queste distanze.
Questa dorsale privata è costruita su una sorprendente 120.000 miglia di nuova fibra ottica dedicata cavo, garantendo che i dati di addestramento dell’intelligenza artificiale non competano con il traffico Internet generale.
L’obiettivo è fare in modo che i siti geograficamente separati si comportino come se fossero in un unico edificio, mantenendo le costose GPU costantemente utilizzate.
Ciò richiede hardware di rete specializzato e a larghezza di banda elevata in grado di mantenere le prestazioni su grandi distanze.
Sebbene Microsoft non abbia ufficialmente nominato il proprio fornitore, l’industria ha prodotto diverse potenti soluzioni per questo esatto problema. L’ASIC Jericho4 di Broadcom, ad esempio, è stato progettato per questo tipo di interconnessione datacenter-to-datacenter (DCI).
“Se stai eseguendo un cluster di formazione e desideri crescere oltre la capacità di un singolo edificio, siamo l’unica soluzione valida lì”, ha osservato Amir Sheffer di Broadcom.
Allo stesso modo, Cisco ha sviluppato il suo router 8223 per collegare data center AI fino a 1.000 chilometri di distanza, con Microsoft nominata tra i primi valutatori della tecnologia.
Ulteriori report aggiunge che la rete interna utilizza un backend Ethernet a due livelli che esegue il sistema operativo SONiC (Software for Open Networking in the Cloud) di Microsoft, con connettività a 800 Gbps per collegamento.
Data la profonda partnership di Microsoft con Nvidia, la piattaforma Spectrum-XGS del colosso delle GPU è anche un forte contendente per il tessuto che collega questi siti. Questo approccio hardware multi-vendor è fondamentale per evitare il lock-in, una strategia che Microsoft sta perseguendo in tutto il suo stack, compresi gli sforzi per far funzionare il software CUDA di Nvidia sui chip AMD concorrenti.
Dominando sia la costruzione fisica che la complessa rete che lega il tutto, Microsoft si sta posizionando per controllare il livello fondamentale per la prossima era dello sviluppo dell’intelligenza artificiale.