För att träna AI-modeller med biljoner parametrar bekräftade Microsoft den 13 november att de bygger en kontinentspännande”AI-superfabrik.”Projektet länkar samman specialiserade datacenter till en enda virtuell superdator, en strategi utformad för att övervinna lokala kraft-och markbegränsningar.
Den första noden i detta höghastighetsnätverk är nu online, och kopplar samman företagets nya”Fairwater”-anläggningar i Wisconsin och Atlanta, Georgia.
Genom att distribuera enorma AI-arbetsbelastningar över hundratals mil, skapade Microsofts nästa nödvändiga konstinfrastruktur för att skapa den nya infrastrukturen intelligensutveckling, som effektivt behandlar flera tillstånd som en enda beräkningsresurs.
En”AI Superfactory”som sträcker sig över stater
Microsofts ambitiösa projekt omdefinierar konceptet med ett datacentercampus. Istället för att koncentrera alla sina beräkningar till ett geografiskt område skapar företaget ett distribuerat nätverk som fungerar som en sammanhängande maskin.
Det här tillvägagångssättet tar sig direkt an de primära flaskhalsarna i att skala AI-infrastruktur: att säkra tillräckligt med mark och, mer kritiskt, megawatt kraft på ett ställe.
Den första anslutningen är en förbindelse mellan 700 och 700 meter från Atlanta och Wisconsin. konceptets hållbarhet. Detta drag är en central del av den intensiva AI-kapprustningen, där styrning av beräkningar är av största vikt.
Microsoft Atlanta Datacen (Bild: Microsoft)
Denna strategi gör det möjligt för Microsoft att placera datacenter på platser med gynnsammare förhållanden – som billigare mark, svalare klimat eller tillgång till förnybar energi – utan att offra prestandan hos en enda byggnad
. distribuerat nätverk som kan fungera som en virtuell superdator för att ta itu med världens största utmaningar på sätt som du bara inte kunde göra på en enda anläggning”, säger Alistair Speirs, general manager på Microsoft med fokus på Azure-infrastruktur, i en företagsmeddelande.
Microsoft Wisconsin Datacenter via Microsoft (Bild: Microsoft)
Omfattningen av denna vision är enorm, eftersom företaget tror att framtida AI-modeller kommer att kräva beräkningskraft långt utöver vad en enskild webbplats kan ge.”Mängden infrastruktur som krävs nu för att träna dessa modeller är inte bara ett datacenter, inte två, utan multiplar av det,”förklarade Microsoft Azure CTO Mark Russinovich.
Denna interna utbyggnaden representerar en del av en dubbel strategi, som kompletterar massiva outsourcingavtal som det senaste kontraktet på 9,7 miljarder USD med IREN.
Architecture: The Fairwater: Specialbyggd för biljoner-parametermodeller
Inuti varje Fairwater-anläggning har Microsoft konstruerat en ny arkitektur som är optimerad exklusivt för storskalig AI-träning. Det här är inte traditionella datacenter designade för att köra miljontals separata kundapplikationer. Istället är de specialbyggda för att utföra ett enormt, komplext jobb över all tillgänglig hårdvara. Byggnaderna i sig har en design i två våningar, ett val som ökar GPU-densiteten och minskar det fysiska avståndet som signaler måste färdas, vilket minimerar latensen. Denna vertikala integration av hårdvara och faciliteter ligger i linje med Microsofts bredare satsning på att kontrollera hela sin AI-stack, inklusive dess nyligen genomförda övergång till licensiering av OpenAI:s anpassade chipdesigner. Detta är en enorm värmeförsörjning. direkt-till-chip vätskekylningssystem. Designen med slutna kretsar förbrukar “nästan noll vatten”i sin verksamhet, en betydande effektivitetsvinst. På sin plats i Atlanta kommer Microsofts kraftfulla GB200-rack, N7200-system att distribuera kan dra över 140 kilowatt och rymma 72 GPU:er. Hela den här hårdvarustacken är konstruerad för maximal prestanda, vilket säkerställer att ingen flaskhals blir en komponent.”Att leda inom AI handlar inte bara om att lägga till fler GPU:er – det handlar om att bygga infrastrukturen som får dem att fungera tillsammans som ett system”, säger Scott Guthrie, Microsofts vice vd för Cloud + AI. Betydande fördröjningar för datacenter, kopplingar mellan hundra och 3> det är nyckeln till att låsa upp denna nya våg. Microsoft har byggt ett dedikerat”AI Wide Area Network”(AI WAN) för att överbrygga dessa avstånd. Denna privata ryggrad är byggd på en häpnadsväckande , som säkerställer att AI-träningsdata inte konkurrerar med allmän internettrafik. Målet är att få de geografiskt åtskilda webbplatserna att bete sig som om de vore i en enda byggnad, vilket gör att de dyra GPU:erna ständigt används. Detta kräver specialiserad nätverkshårdvara med hög bandbredd som inte kan upprätthålla officiellt avstånd för nätverkshårdvara . dess leverantör har industrin tagit fram flera kraftfulla lösningar för just detta problem. Broadcoms Jericho4 ASIC, till exempel, designades för den här typen av datacenter-till-datacenter-interconnect (DCI). “Om du driver ett enda träningskluster, vill vi bara ha en giltig kapacitet för ett växande kluster. lösning där ute”, konstaterade Broadcoms Amir Sheffer. På liknande sätt har Cisco utvecklat sin 8223-router för att ansluta AI-datacenter upp till 1 000 km från varandra med Microsofts namn på 1 000 km. tech. Färsk rapportering tillägger att det interna nätverket använder en tvåstegs Ethernet-backend som kör Microsofts eget SONiC-operativsystem (Software for Open Networking in the Cloud), med 800 Gbps-anslutning per länk. Med tanke på Microsofts djupa partnerskap med Nvidia är GPU-jättens starka plattform även för dessa plattformar för anslutning till dessa fabriker. Detta tillvägagångssätt för flera leverantörer av hårdvara är avgörande för att undvika inlåsning, en strategi som Microsoft följer över hela sin stack, inklusive ansträngningar för att få Nvidias CUDA-programvara att fungera på konkurrerande AMD-chips. Genom att bemästra både den fysiska utbyggnaden och det komplexa nätverket som binder allt samman, positionerar Microsoft sig för att kontrollera grundskiktet för nästa era av AI-utveckling.Att väva en dator i kontinentstorlek med höghastighetsnätverk