Om AI-modellen met biljoenen parameters te trainen, bevestigde Microsoft op 13 november dat het een continent-omspannende “AI-superfabriek” bouwt. Het project koppelt gespecialiseerde datacentra tot één enkele virtuele supercomputer, een strategie die is ontworpen om lokale stroom-en landbeperkingen te overwinnen.

Het eerste knooppunt in dit hogesnelheidsnetwerk is nu online en verbindt de nieuwe’Fairwater’-faciliteiten van het bedrijf in Wisconsin en Atlanta, Georgia.

Door enorme AI-werklasten over honderden kilometers te verdelen, wil Microsoft de fundamentele infrastructuur creëren die nodig is voor de volgende golf van ontwikkeling van kunstmatige intelligentie, waarbij meerdere staten effectief als één enkele computerbron worden behandeld.

breedte=”485″hoogte=”364″src=”data:image/svg+xml;nitro-empty-id=MTYzOTOxNjQx-1;base64,PHN2ZyB2aWV3Qm94PSIwIDAgMTI4MCA5NT kiIHdpZHRoPSIxMjgwIiBoZWlnaHQ9Ijk1OSIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj48L3N2Zz4=”>

Een ‘AI-superfabriek’ die staten overspant

Het ambitieuze project van Microsoft herdefinieert het concept van een datacentercampus. In plaats van al zijn rekenkracht in één geografisch gebied te concentreren, creëert het bedrijf een gedistribueerd netwerk dat functioneert als één samenhangende machine.

Deze aanpak pakt direct de belangrijkste knelpunten aan bij het opschalen van de AI-infrastructuur: het veiligstellen van voldoende land en, nog belangrijker, megawatt aan stroom op één plek.

De eerste verbinding, die Wisconsin en Atlanta over een afstand van 700 mijl met elkaar verbindt, is nu operationeel, wat de levensvatbaarheid van het concept bewijst. Deze stap is een kernonderdeel van de intense AI-wapenwedloop, waarbij het beheersen van rekenkracht van het grootste belang is.

Microsoft Atlanta Datacen (Afbeelding: Microsoft)

Deze strategie stelt Microsoft in staat datacenters te plaatsen op locaties met gunstiger omstandigheden – zoals goedkoper land, koelere klimaten of toegang tot hernieuwbare energie – zonder de prestaties van een enkel, monolithisch cluster op te offeren.

“Dit gaat over het bouwen van een gedistribueerd netwerk dat kan fungeren als een virtuele supercomputer om de grootste uitdagingen ter wereld aan te pakken op een manier die jij kunt doen. kon gewoon niet in één enkele faciliteit”, zegt Alistair Speirs, een algemeen manager bij Microsoft die zich richt op de Azure-infrastructuur, in een bedrijfsaankondiging.

Microsoft Wisconsin Datacenter via Microsoft (Afbeelding: Microsoft)

De omvang van deze visie is enorm, omdat het bedrijf gelooft dat toekomstige AI-modellen rekenkracht zullen vereisen die veel verder gaat dan wat een enkele site kan bieden. “De hoeveelheid infrastructuur die nu nodig is om deze modellen te trainen is niet slechts één datacenter, niet twee, maar veelvouden daarvan”, legt Mark Russinovich, CTO van Microsoft Azure, uit.

Deze in-house buildout vertegenwoordigt een onderdeel van een dubbele strategie, als aanvulling op enorme outsourcing-deals, zoals het recente contract van $ 9,7 miljard met IREN om externe GPU-capaciteit veilig te stellen.

De Fairwater-architectuur: speciaal gebouwd voor biljoen parameters. Modellen

Microsoft heeft binnen elke Fairwater-faciliteit een nieuwe architectuur ontworpen die exclusief is geoptimaliseerd voor grootschalige AI-training. Dit zijn geen traditionele datacenters die zijn ontworpen om miljoenen afzonderlijke klantapplicaties uit te voeren.

In plaats daarvan zijn ze speciaal gebouwd om één enorme, complexe taak uit te voeren op alle beschikbare hardware. De gebouwen zelf hebben een ontwerp van twee verdiepingen, een keuze die de GPU-dichtheid vergroot en de fysieke afstand verkleint die signalen moeten afleggen, waardoor de latentie wordt geminimaliseerd.

Deze verticale integratie van hardware en faciliteiten komt overeen met de bredere drang van Microsoft om de volledige AI-stack te controleren, inclusief de recente stap om licenties te verlenen voor OpenAI’s aangepaste chipontwerpen.

Deze dichtheid veroorzaakt enorme hitte, die Microsoft aanpakt met een geavanceerd direct-to-chip vloeistofkoelingssysteem. Het closed-loop-ontwerp verbruikt “bijna nul water”tijdens zijn activiteiten, een aanzienlijke efficiëntiewinst.

Op de locatie in Atlanta zal Microsoft Nvidia’s krachtige GB200 NVL72-racksystemen inzetten, waarbij elk rack in staat is om meer dan 140 kilowatt en behuizing voor 72 GPU’s.

Deze volledige hardwarestack is ontworpen voor maximale prestaties en zorgt ervoor dat geen enkel onderdeel een knelpunt wordt. “Leiden op het gebied van AI gaat niet alleen over het toevoegen van meer GPU’s – het gaat over het bouwen van de infrastructuur waardoor ze samenwerken als één systeem”, aldus Scott Guthrie, Microsoft’s executive vice president van Cloud + AI.

Het verweven van een computer ter grootte van een continent met snelle netwerken

Het verbinden van datacenters die honderden kilometers uit elkaar liggen, brengt aanzienlijke latentie-uitdagingen met zich mee, maar het is de sleutel tot het ontsluiten van deze nieuwe schaal. Microsoft heeft een speciaal “AI Wide Area Network”(AI WAN) gebouwd om deze afstanden te overbruggen.

Deze privé-backbone is gebouwd op een verbazingwekkende 190.000 kilometer aan nieuwe, speciale glasvezel kabel, zodat AI-trainingsgegevens niet concurreren met algemeen internetverkeer.

Het doel is om de geografisch gescheiden sites zich te laten gedragen alsof ze zich in één gebouw bevinden, waardoor de dure GPU’s voortdurend worden gebruikt.

Dit vereist gespecialiseerde netwerkhardware met hoge bandbreedte die de prestaties over grote afstanden kan handhaven.

Hoewel Microsoft zijn leverancier niet officieel heeft genoemd, heeft de industrie verschillende krachtige oplossingen voor dit exacte probleem bedacht. De Jericho4 ASIC van Broadcom is bijvoorbeeld ontworpen voor dit type datacenter-to-datacenter interconnect (DCI).

“Als je een trainingscluster beheert en verder wilt groeien dan de capaciteit van een enkel gebouw, zijn wij de enige geldige oplossing die er is”, aldus Amir Sheffer van Broadcom.

Op dezelfde manier heeft Cisco zijn 8223-router ontwikkeld om AI-datacenters tot 1.000 kilometer van elkaar te verbinden, waarbij Microsoft wordt genoemd als een vroege evaluator van de technologie.

Nieuwe rapporten voegen daaraan toe dat de interne Het netwerk maakt gebruik van een Ethernet-backend met twee niveaus waarop Microsofts eigen SONiC-besturingssysteem (Software for Open Networking in the Cloud) draait, met 800 Gbps-connectiviteit per link.

Gezien de nauwe samenwerking van Microsoft met Nvidia, is het Spectrum-XGS-platform van de GPU-gigant ook een sterke kandidaat voor het weefsel dat deze sites verbindt. Deze hardwarebenadering van meerdere leveranciers is van cruciaal belang om lock-in te voorkomen, een strategie die Microsoft voor al zijn stacks nastreeft, inclusief inspanningen om de CUDA-software van Nvidia te laten werken op concurrerende AMD-chips.

Door zowel de fysieke opbouw als de complexe netwerken die alles met elkaar verbinden te beheersen, positioneert Microsoft zichzelf om de fundamentele laag voor het volgende tijdperk van AI-ontwikkeling te beheersen.

Categories: IT Info