Microsoft Azure hat den weltweit ersten NVIDIA GB300 NVL72-Cluster im Supercomputer-Maßstab bereitgestellt, ein riesiges System, das speziell für seinen Partner OpenAI entwickelt wurde.

Der Produktionscluster integriert über 4.600 der neuesten Blackwell Ultra-GPUs von NVIDIA und bietet die immense Leistung, die zum Trainieren und Ausführen der nächsten Generation von KI-Modellen erforderlich ist.

Die Bereitstellung, befindet sich in den KI-Rechenzentren von Microsoft und stellt einen wichtigen Meilenstein in einer tiefgreifenden strategischen Allianz zwischen den drei Technologiegiganten dar. Ziel ist es, die KI-Entwicklung drastisch zu beschleunigen und OpenAI in die Lage zu versetzen, leistungsfähigere und komplexere Modelle als je zuvor zu erstellen und so den gemeinsamen Vorsprung der Unternehmen im hart umkämpften Wettlauf um die KI-Infrastruktur zu festigen.

Ein neuer Supercomputing-Gigant für OpenAI

Die Ankündigung ist der Höhepunkt einer mehrjährigen Co-Engineering-Bemühung zum Aufbau einer Infrastruktur, die in der Lage ist, bahnbrechende KI-Arbeitslasten zu bewältigen.

Microsoft plant, dass dieser erste Cluster der erste von vielen sein wird, mit dem ehrgeizigen Ziel, Skalierung auf Hunderttausende Blackwell Ultra GPUs in seinen globalen Rechenzentren, ein klares Signal dafür seine langfristige KI-Strategie.

Lesen Sie auch: Warum Microsoft der ultimative Gewinner sein könnte, wenn die KI-Blase platzt

Diese enorme Investition wird das Modelltraining in Wochen statt in Monaten ermöglichen und die Entwicklung von Modellen mit Hunderten von Billionen Parametern unterstützen.

Laut Nidhi Chappell, einem Corporate Vice President bei Microsoft, trägt die „Zusammenarbeit dazu bei, dass Kunden zufrieden sind.“ OpenAI kann die Infrastruktur der nächsten Generation in beispielloser Größe und Geschwindigkeit bereitstellen.“

Microsoft und Nvidia sagen, dass es einen neuen Branchenmaßstab für KI-Supercomputing im Produktionsmaßstab setzt.

Unter der Haube: Im GB300 NVL72-Cluster

Das Herzstück des Supercomputers ist der von NVIDIA Flüssigkeitsgekühltes GB300 NVL72-Rack-System, eine Architektur, die im März 2025 auf der GTC vorgestellt wurde. Jede Einheit integriert 72 Blackwell Ultra GPUs und 36 Grace CPUs in einem einzigen zusammenhängenden System.

Dieses dichte Design liefert 1,44 Exaflops FP4-Rechenleistung und stellt einen einheitlichen 37-TB-Pool schnellen Speichers pro System bereit. Die eingebaute Flüssigkeitskühlung ist unerlässlich, um die enorme Wärmeabgabe einer so hochdichten Konfiguration zu bewältigen und eine anhaltende Spitzenleistung zu ermöglichen.

Um über 4.600 GPUs in einem zusammenhängenden Supercomputer zu verbinden, verwendet der Cluster eine ausgeklügelte zweistufige Netzwerkarchitektur. In jedem Rack bietet NVIDIAs NVLink-Fabric der fünften Generation eine Gesamtbandbreite von 130 TB/s. Dadurch werden die 72 GPUs effektiv zu einem einzigen, massiven Beschleuniger mit einem gemeinsamen Speicher Pool.

Für die Kommunikation im gesamten Cluster hat Microsoft NVIDIAs Quantum-X800 InfiniBand-Plattform eingesetzt. Diese nicht blockierende Fat-Tree-Fabric gewährleistet eine nahtlose Hochgeschwindigkeitskommunikation mit 800 Gbit/s Bandbreite pro GPU, eine entscheidende Komponente für die Minimierung des Overheads beim Training extrem großer Modelle auf Tausenden von Prozessoren.

Das KI-Wettrüsten: Ein strategisches Machtspiel

Der Einsatz von Microsoft ist zwar der bislang umfangreichste, folgt jedoch einem früheren Schritt des spezialisierten Cloud-Anbieters CoreWeave. Im Juli 2025 stellte CoreWeave als erstes Unternehmen die GB300-Plattform kommerziell zur Verfügung und sicherte sich damit einen wichtigen Vorsprung als Erstanbieter auf dem Markt.

 Die Ankündigung von Microsoft betont jedoch sorgfältig den Charakter der „Großserienproduktion“ seines Clusters und signalisiert ein neues Maß an Industrialisierung und Kapazität, das ihn von früheren, kleineren Bereitstellungen unterscheidet.

Dieser Schritt bestätigt zunächst einmal die strategische Ausrichtung von Microsoft Ende 2024 gemeldet, soll der GB300 gegenüber seinem verzögerten Vorgänger, dem GB200, Vorrang haben. Der erfolgreiche Einsatz ist ein Zeichen der Dominanz im Wettrüsten der KI-Infrastruktur und stärkt die Position des Unternehmens gegenüber Cloud-Konkurrenten.

Ian Buck, Vizepräsident für Hyperscale und High-Performance Computing bei NVIDIA, betonte die Bedeutung des Systems für den gesamten Bereich und erklärte: „Dieses gemeinsam entwickelte System liefert den weltweit ersten GB300-Produktionscluster im großen Maßstab und stellt die benötigte Supercomputing-Engine bereit.“ damit OpenAI Modelle mit mehreren Billionen Parametern bereitstellen kann.“

Es zeigt die Rolle der Plattform als führende Engine für bahnbrechende KI-Forschung und-Entwicklung.

Jenseits von Blackwell: NVIDIAs Accelerating Roadmap

Die Blackwell-Architektur repräsentiert den aktuellen Stand der Technik in der KI-Beschleunigung. Jensen Huang, CEO von NVIDIA, hat den tiefgreifenden Einfluss des Blackwell Ultra NVL72 auf die Arbeitsbelastung der KI-Begründung hervorgehoben und festgestellt: „Der Blackwell Ultra NVL72 beschleunigt die Arbeitsbelastung der KI-Begründung erheblich und ermöglicht selbst bei den größten Modellen nahezu sofortige Reaktionen.“

Doch obwohl seine Flaggschiff-Plattform in großem Maßstab eingesetzt wird, blickt das Unternehmen bereits auf den nächsten großen Architektursprung.

NVIDIAs aggressive Roadmap weist nun auf die Vera Rubin-Plattform hin, die voraussichtlich Ende 2026 verfügbar sein wird. Diese zukünftige Architektur wird noch mehr Spezialisierung einführen, wie zum Beispiel den kürzlich angekündigten Rubin CPX-Coprozessor, einen speziell entwickelten Chip, der die rechenintensive „Kontextphase“ der KI-Inferenz beschleunigen soll.

Diese Strategie der „disaggregierten Inferenz“ signalisiert einen Markt, der darüber hinausgeht monolithische Allzweck-GPUs. Durch die Entwicklung spezieller Hardware für bestimmte Teile des KI-Workflows baut NVIDIA einen größeren Wettbewerbsvorteil auf. Dieses unermüdliche Innovationstempo unterstreicht die Reifung des KI-Hardwaremarktes.

Die Microsoft-NVIDIA-OpenAI-Allianz hat vorerst einen neuen Standard für die Infrastruktur gesetzt, der die nächste Ära der künstlichen Intelligenz definieren wird.

Categories: IT Info