Microsoft Azure a déployé le premier cluster NVIDIA GB300 NVL72 à l’échelle d’un superordinateur, un système massif construit spécifiquement pour son partenaire OpenAI.

Le cluster de production intègre plus de 4 600 des derniers GPU Blackwell Ultra de NVIDIA, fournissant l’immense puissance nécessaire pour former et exécuter la prochaine génération de modèles d’IA.

Le déploiement, situé dans les centres de données IA de Microsoft, représente une étape majeure dans une alliance stratégique profonde entre les trois géants de la technologie. Il vise à accélérer considérablement le développement de l’IA, permettant à OpenAI de créer des modèles plus puissants et plus complexes que jamais, renforçant ainsi l’avance collective des entreprises dans la course extrêmement compétitive aux infrastructures d’IA.

Un nouveau géant du calcul intensif pour OpenAI

Cette annonce est le point culminant d’un effort de co-ingénierie pluriannuel visant à créer une infrastructure capable de gérer les charges de travail d’IA de pointe.

Microsoft prévoit que ce cluster initial soit le premier d’une longue série, avec un objectif ambitieux de évoluer vers des centaines de milliers de GPU Blackwell Ultra dans ses centres de données mondiaux, une évidence signal de sa stratégie d’IA à long terme.

Lire aussi : Pourquoi Microsoft pourrait être le gagnant ultime une fois que la bulle de l’IA éclatera

Cet investissement massif permettra de former des modèles en quelques semaines au lieu de quelques mois et de soutenir le développement de modèles avec des centaines de milliards de paramètres.

Selon Nidhi Chappell, vice-président d’entreprise chez Microsoft, la « collaboration permet de garantir que des clients comme OpenAI peuvent déployer une infrastructure de nouvelle génération à une échelle et à une vitesse sans précédent. Le système GB300 NVL72 à refroidissement liquide de NVIDIA, une architecture dévoilée au GTC en mars 2025. Chaque unité intègre 72 GPU Blackwell Ultra et 36 processeurs Grace dans un seul système cohérent.

Cette conception dense fournit 1,44 exaflops de calcul FP4 et fournit un pool unifié de 37 To de mémoire rapide par système. Le refroidissement liquide intégré est essentiel pour gérer l’immense puissance thermique d’une configuration aussi haute densité, permettant des performances maximales soutenues.

Pour connecter plus de 4 600 GPU en un seul supercalculateur cohérent, le cluster utilise une architecture réseau sophistiquée à deux niveaux. Dans chaque rack, la structure NVLink de cinquième génération de NVIDIA fournit 130 To/s de bande passante totale. Cela transforme efficacement les 72 GPU en un un accélérateur unique et massif avec une mémoire partagée. pool.

Pour la communication sur l’ensemble du cluster, Microsoft a déployé la la plate-forme Quantum-X800 InfiniBand de NVIDIA. Cette structure à arbre gras non bloquante assure une communication fluide et à haut débit avec 800 Gb/s de bande passante par GPU, un composant essentiel pour minimiser les frais généraux lors de la formation de modèles ultra-larges sur des milliers de processeurs.

La course à l’armement de l’IA : un jeu de puissance stratégique

Bien que le déploiement de Microsoft soit le plus important à ce jour, il fait suite à une décision antérieure du fournisseur de cloud spécialisé CoreWeave. En juillet 2025, CoreWeave est devenue la première entreprise à commercialiser la plate-forme GB300, s’assurant ainsi un avantage clé en tant que premier arrivé sur le marché.

 Cependant, l’annonce de Microsoft met soigneusement l’accent sur la nature de « production à grande échelle » de son cluster, signalant un nouveau niveau d’industrialisation et de capacité qui le distingue des déploiements antérieurs plus petits.

Cette décision valide d’abord le pivot stratégique de Microsoft. rapporté fin 2024, pour donner la priorité au GB300 par rapport à son prédécesseur retardé, le GB200. Le déploiement réussi est une déclaration de domination dans la course aux armements en matière d’infrastructures d’IA, renforçant la position de l’entreprise face à ses concurrents du cloud.

Ian Buck, vice-président de NVIDIA pour le calcul hyperscale et haute performance, a souligné l’importance du système pour l’ensemble du domaine, en déclarant: « Ce système co-conçu fournit le premier cluster de production GB300 à grande échelle au monde, fournissant le moteur de supercalcul nécessaire pour OpenAI pour servir des modèles de plusieurs billions de paramètres. Jensen Huang, PDG de NVIDIA, a souligné son impact profond sur les charges de travail de raisonnement de l’IA, notant: « le Blackwell Ultra NVL72 accélère considérablement les charges de travail de raisonnement de l’IA, permettant des réponses quasi instantanées, même sur les plus grands modèles.

La feuille de route agressive de NVIDIA pointe désormais vers la plate-forme Vera Rubin, qui devrait être disponible fin 2026. Cette future architecture introduira encore plus de spécialisation, comme le coprocesseur Rubin CPX récemment annoncé, une puce spécialement conçue pour accélérer la « phase contextuelle » gourmande en calcul de l’inférence de l’IA.

Cette stratégie d’« inférence désagrégée » signale un marché qui va au-delà. GPU monolithiques à usage général. En créant du matériel spécialisé pour des parties spécifiques du flux de travail de l’IA, NVIDIA construit un fossé concurrentiel plus profond. Ce rythme incessant d’innovation met en évidence la maturation du marché du matériel d’IA.

Pour l’instant, l’alliance Microsoft-NVIDIA-OpenAI a établi une nouvelle norme pour l’infrastructure qui définira la prochaine ère de l’intelligence artificielle.

Categories: IT Info