Pour former des modèles d’IA avec des milliards de paramètres, Microsoft a confirmé le 13 novembre qu’il construisait une « superusine d’IA » à l’échelle du continent. Le projet relie des centres de données spécialisés en un seul superordinateur virtuel, une stratégie conçue pour surmonter les limitations locales en matière d’énergie et de terrain.

Le premier nœud de ce réseau à haut débit est désormais en ligne, reliant les nouvelles installations « Fairwater » de l’entreprise dans le Wisconsin et à Atlanta, en Géorgie.

En répartissant des charges de travail massives d’IA sur des centaines de kilomètres, Microsoft vise à créer l’infrastructure de base nécessaire à la prochaine vague de développement de l’intelligence artificielle, en traitant efficacement plusieurs États comme un seul et même système informatique. ressource.

Une « superusine d’IA » couvrant les États

Le projet ambitieux de Microsoft redéfinit le concept de campus de centre de données. Au lieu de concentrer tous ses calculs dans une zone géographique, l’entreprise crée un réseau distribué qui fonctionne comme une machine cohérente.

Cette approche s’attaque directement aux principaux goulots d’étranglement dans la mise à l’échelle de l’infrastructure d’IA : sécuriser suffisamment de terrain et, plus important encore, des mégawatts d’énergie en un seul endroit.

La première connexion, reliant le Wisconsin et Atlanta sur une distance de 700 miles, est désormais opérationnelle, prouvant la viabilité du concept. Cette décision est au cœur de l’intense course aux armements en matière d’IA, où le contrôle du calcul est primordial.

Microsoft Atlanta Datacen (Image : Microsoft)

Cette stratégie permet à Microsoft de placer les centres de données dans des endroits offrant des conditions plus favorables, comme des terrains moins chers, des climats plus frais ou un accès à l’énergie renouvelable, sans sacrifier les performances d’un cluster monolithique unique.

« Il s’agit de construire un réseau distribué qui peut agir comme un superordinateur virtuel pour relever les plus grands défis mondiaux de manière à ce que ce n’est tout simplement pas possible dans une seule installation”, a déclaré Alistair Speirs, directeur général chez Microsoft spécialisé dans l’infrastructure Azure, dans une annonce de l’entreprise.

Microsoft Wisconsin Datacenter via Microsoft (Image : Microsoft)

L’ampleur de cette vision est immense, car la société estime que les futurs modèles d’IA nécessiteront une puissance de calcul bien supérieure à ce qu’un seul site peut fournir.”La quantité d’infrastructure requise aujourd’hui pour former ces modèles ne représente pas seulement un centre de données, ni deux, mais des multiples”, a expliqué Mark Russinovich, CTO de Microsoft Azure.

Cette construction en interne représente l’un des volets d’une double stratégie, complétant des accords d’externalisation massifs comme son récent contrat de 9,7 milliards de dollars avec IREN pour sécuriser la capacité GPU externe.

La Fairwater : une architecture spécialement conçue pour des milliards de paramètres. Modèles

Dans chaque installation de Fairwater, Microsoft a conçu une nouvelle architecture optimisée exclusivement pour la formation à l’IA à grande échelle. Il ne s’agit pas de centres de données traditionnels conçus pour exécuter des millions d’applications client distinctes.

Au lieu de cela, ils sont spécialement conçus pour exécuter une tâche massive et complexe sur tout le matériel disponible. Les bâtiments eux-mêmes présentent une conception à deux étages, un choix qui augmente la densité du GPU et réduit la distance physique que les signaux doivent parcourir, minimisant ainsi la latence.

Cette intégration verticale du matériel et des installations s’aligne sur la volonté plus large de Microsoft de contrôler l’ensemble de sa pile d’IA, y compris sa récente décision d’octroyer une licence pour les conceptions de puces personnalisées d’OpenAI.

Cette densité crée une immense chaleur, à laquelle Microsoft répond avec un système avancé de refroidissement liquide direct sur puce. La conception en boucle fermée ne consomme « presque zéro eau » dans ses opérations, un gain d’efficacité significatif.

Sur son site d’Atlanta, Microsoft déploiera les puissants systèmes de rack GB200 NVL72 de Nvidia, chaque rack étant capable de consommer plus de 140 kilowatts et abritant 72 GPU.

L’ensemble de cette pile matérielle est conçue pour des performances maximales, garantissant qu’aucun composant ne devienne un goulot d’étranglement. « Être leader dans le domaine de l’IA ne consiste pas seulement à ajouter davantage de GPU, il s’agit également de construire l’infrastructure qui les fait fonctionner ensemble comme un seul système », a déclaré Scott Guthrie, vice-président exécutif de Microsoft Cloud + AI.

Tisser un ordinateur de la taille d’un continent avec un réseau haut débit

La connexion de centres de données distants de plusieurs centaines de kilomètres présente d’importants problèmes de latence, mais c’est la clé pour débloquer cette nouvelle échelle. Microsoft a construit un « AI Wide Area Network » (AI WAN) dédié pour combler ces distances.

Cette dorsale privée est construite sur un étonnant 120 000 miles de nouvelle fibre optique dédiée. câble, garantissant que les données d’entraînement de l’IA n’entrent pas en concurrence avec le trafic Internet général.

L’objectif est de faire en sorte que les sites géographiquement séparés se comportent comme s’ils se trouvaient dans un seul bâtiment, en gardant les GPU coûteux en permanence utilisés.

Cela nécessite un matériel réseau spécialisé à large bande passante, capable de maintenir les performances sur de grandes distances.

Bien que Microsoft n’ait pas officiellement nommé son fournisseur, l’industrie a produit plusieurs solutions puissantes pour ce problème précis. L’ASIC Jericho4 de Broadcom, par exemple, a été conçu pour ce type d’interconnexion de centre de données à centre de données (DCI).

« Si vous gérez un cluster de formation et que vous souhaitez croître au-delà de la capacité d’un seul bâtiment, nous sommes la seule solution valable.”, a noté Amir Sheffer de Broadcom.

De même, Cisco a développé son routeur 8223 pour connecter des centres de données IA jusqu’à 1 000 kilomètres les uns des autres, Microsoft étant désigné comme l’un des premiers évaluateurs de la technologie.

De nouveaux rapports ajoutent que le réseau interne utilise un backend Ethernet à deux niveaux exécutant le système d’exploitation SONiC (Software for Open Networking in the Cloud) de Microsoft, avec une connectivité de 800 Gbit/s par liaison.

Compte tenu du partenariat approfondi de Microsoft avec Nvidia, la plate-forme Spectrum-XGS du géant des GPU est également un concurrent sérieux pour la structure reliant ces sites. Cette approche matérielle multifournisseur est essentielle pour éviter le verrouillage, une stratégie que Microsoft poursuit dans l’ensemble de sa pile, notamment en s’efforçant de faire fonctionner le logiciel CUDA de Nvidia sur des puces AMD concurrentes.

En maîtrisant à la fois la construction physique et la mise en réseau complexe qui relie le tout, Microsoft se positionne pour contrôler la couche fondamentale de la prochaine ère de développement de l’IA.

Categories: IT Info