Um KI-Modelle mit Billionen von Parametern zu trainieren, bestätigte Microsoft am 13. November, dass es eine kontinentübergreifende „KI-Superfabrik“ aufbaut. Das Projekt verbindet spezialisierte Rechenzentren zu einem einzigen virtuellen Supercomputer, eine Strategie zur Überwindung lokaler Strom-und Landbeschränkungen.
Der erste Knoten in diesem Hochgeschwindigkeitsnetzwerk ist jetzt online und verbindet die neuen „Fairwater“-Einrichtungen des Unternehmens in Wisconsin und Atlanta, Georgia.
Durch die Verteilung massiver KI-Arbeitslasten über Hunderte von Kilometern möchte Microsoft die grundlegende Infrastruktur schaffen, die für die nächste Welle der Entwicklung künstlicher Intelligenz erforderlich ist, und dabei mehrere Bundesstaaten effektiv als einen einzigen Rechner behandeln Ressource.
Eine staatenübergreifende „KI-Superfabrik“
Das ehrgeizige Projekt von Microsoft definiert das Konzept eines Rechenzentrumscampus neu. Anstatt die gesamte Rechenleistung in einem geografischen Gebiet zu konzentrieren, erstellt das Unternehmen ein verteiltes Netzwerk, das als eine zusammenhängende Maschine fungiert.
Mit diesem Ansatz werden die Hauptengpässe bei der Skalierung der KI-Infrastruktur direkt angegangen: ausreichend Land und, was noch wichtiger ist, Megawatt Strom an einem Ort.
Die erste Verbindung, die Wisconsin und Atlanta über eine Entfernung von 700 Meilen verbindet, ist jetzt in Betrieb und beweist die Realisierbarkeit des Konzepts. Dieser Schritt ist ein zentraler Bestandteil des intensiven KI-Wettrüstens, bei dem die Kontrolle der Rechenleistung von größter Bedeutung ist.
Microsoft Atlanta Datacen (Bild: Microsoft)
Diese Strategie ermöglicht es Microsoft, Rechenzentren an Standorten mit günstigeren Bedingungen zu platzieren – wie etwa günstigerem Land, kühlerem Klima oder Zugang zu erneuerbarer Energie –, ohne die Leistung eines einzelnen, monolithischen Clusters zu opfern.
„Hier geht es um den Aufbau eines verteilten Netzwerks, das als virtueller Supercomputer für die Bewältigung der größten Herausforderungen der Welt fungieren kann.“ Herausforderungen in einer Weise, die man in einer einzigen Einrichtung einfach nicht bewältigen könnte“, sagte Alistair Speirs, General Manager bei Microsoft mit Schwerpunkt auf Azure-Infrastruktur, in einer Unternehmensankündigung.
Microsoft Wisconsin Datacenter über Microsoft (Bild: Microsoft)
Das Ausmaß dieser Vision ist immens, da das Unternehmen davon ausgeht, dass zukünftige KI-Modelle eine Rechenleistung erfordern werden, die weit über das hinausgeht, was ein einzelner Standort bieten kann. „Die Menge an Infrastruktur, die jetzt zum Trainieren dieser Modelle erforderlich ist, beträgt nicht nur ein Rechenzentrum, nicht zwei, sondern ein Vielfaches davon“, erklärte Mark Russinovich, CTO von Microsoft Azure.
Dieser interne Ausbau stellt einen Pfeiler einer Doppelstrategie dar und ergänzt massive Outsourcing-Verträge wie den jüngsten 9,7-Milliarden-Dollar-Vertrag mit IREN zur Sicherung externer GPU-Kapazität.
Die Fairwater-Architektur: Speziell für Billionen-Parameter-Modelle entwickelt
In jeder Fairwater-Einrichtung hat Microsoft eine neuartige Architektur entwickelt, die ausschließlich für groß angelegte KI-Schulungen optimiert ist. Dabei handelt es sich nicht um herkömmliche Rechenzentren, die darauf ausgelegt sind, Millionen separater Kundenanwendungen auszuführen.
Stattdessen sind sie speziell dafür konzipiert, einen riesigen, komplexen Job auf der gesamten verfügbaren Hardware auszuführen. Die Gebäude selbst verfügen über ein zweistöckiges Design, eine Wahl, die die GPU-Dichte erhöht und die physische Distanz verringert, die Signale zurücklegen müssen, wodurch die Latenz minimiert wird.
Diese vertikale Integration von Hardware und Einrichtungen steht im Einklang mit Microsofts umfassenderem Bestreben, seinen gesamten KI-Stack zu kontrollieren, einschließlich der jüngsten Entscheidung, die benutzerdefinierten Chipdesigns von OpenAI zu lizenzieren.
Diese Dichte erzeugt enorme Hitze, die Microsoft mit einem fortschrittlichen Direct-to-Chip-Flüssigkeitskühlsystem bekämpft. Das Closed-Loop-Design verbraucht „fast kein Wasser“ im Betrieb, was einen erheblichen Effizienzgewinn darstellt.
Am Standort Atlanta wird Microsoft die leistungsstarken GB200 NVL72-Racksysteme von Nvidia einsetzen, wobei jedes Rack über 140 Kilowatt und mit 72 GPUs ausgestattet.
Dieser gesamte Hardware-Stack ist auf maximale Leistung ausgelegt und stellt sicher, dass keine Komponente zum Engpass wird. „Bei der Führung in der KI geht es nicht nur darum, mehr GPUs hinzuzufügen – es geht darum, die Infrastruktur aufzubauen, die dafür sorgt, dass sie als ein System zusammenarbeiten“, erklärte Scott Guthrie, Microsofts Executive Vice President für Cloud + AI.
Einen kontinentalgroßen Computer mit Hochgeschwindigkeitsnetzwerken verbinden
Die Verbindung von Hunderten Kilometern voneinander entfernten Rechenzentren bringt erhebliche Latenzprobleme mit sich, ist aber der Schlüssel zur Erschließung dieser neuen Größenordnung. Microsoft hat ein dediziertes „AI Wide Area Network“ (AI WAN) aufgebaut, um diese Entfernungen zu überbrücken.
Dieses private Backbone basiert auf einer erstaunlichen 120.000 Meilen neuen, dedizierten Glasfaserkabel, um sicherzustellen, dass KI-Trainingsdaten nicht mit dem allgemeinen Internetverkehr konkurrieren.
Ziel ist es, dass sich die geografisch getrennten Standorte so verhalten, als ob sie sich in einem einzigen Gebäude befänden, und die teuren GPUs ständig ausgelastet bleiben.
Dies erfordert spezielle Netzwerkhardware mit hoher Bandbreite, die in der Lage ist, die Leistung über große Entfernungen aufrechtzuerhalten.
Obwohl Microsoft seinen Anbieter nicht offiziell benannt hat, hat die Branche mehrere leistungsstarke Lösungen für genau dieses Problem entwickelt. Der Jericho4 ASIC von Broadcom wurde beispielsweise für diese Art von Datacenter-to-Datacenter Interconnect (DCI) entwickelt.
„Wenn Sie einen Schulungscluster betreiben und über die Kapazität eines einzelnen Gebäudes hinaus wachsen möchten, sind wir die einzig gültige Lösung.“ dort“, bemerkte Amir Sheffer von Broadcom.
In ähnlicher Weise hat Cisco seinen 8223-Router entwickelt, um KI-Rechenzentren in einem Abstand von bis zu 1.000 Kilometern zu verbinden, wobei Microsoft als einer der ersten Bewerter der Technologie genannt wurde.
Neue Berichte fügen hinzu, dass das interne Netzwerk ein zweistufiges Ethernet-Backend verwendet, auf dem Microsofts eigenes SONiC-Betriebssystem (Software for Open Networking in the Cloud) mit 800 Gbit/s Konnektivität pro Link läuft.
Angesichts der engen Partnerschaft von Microsoft mit Nvidia ist die Spectrum-XGS-Plattform des GPU-Riesen auch ein starker Anwärter auf die Struktur, die diese Standorte verbindet. Dieser Multi-Vendor-Hardware-Ansatz ist von entscheidender Bedeutung, um Lock-in zu vermeiden, eine Strategie, die Microsoft in seinem gesamten Stack verfolgt, einschließlich der Bemühungen, die CUDA-Software von Nvidia auf konkurrierenden AMD-Chips laufen zu lassen.
Durch die Beherrschung sowohl des physischen Aufbaus als auch der komplexen Vernetzung, die alles miteinander verbindet, positioniert sich Microsoft in der Lage, die Grundschicht für die nächste Ära der KI-Entwicklung zu kontrollieren.