Aby szkolić modele sztucznej inteligencji z użyciem bilionów parametrów, 13 listopada Microsoft potwierdził, że buduje obejmującą cały kontynent „superfabrykę sztucznej inteligencji”. Projekt łączy wyspecjalizowane centra danych w jeden wirtualny superkomputer, co jest strategią mającą na celu przezwyciężenie lokalnych ograniczeń w zakresie zasilania i gruntów.

Pierwszy węzeł tej szybkiej sieci jest już dostępny w trybie online, łącząc nowe obiekty firmy „Fairwater” w Wisconsin i Atlancie w stanie Georgia.

Rozdzielając ogromne obciążenia AI na setki kilometrów, Microsoft dąży do stworzenia podstawowej infrastruktury potrzebnej do następnej fali rozwoju sztucznej inteligencji, skutecznie traktując wiele stanów jako jedno zasób obliczeniowy.

„Superfabryka sztucznej inteligencji” obejmująca państwa

Ambitny projekt firmy Microsoft na nowo definiuje koncepcję kampusu centrum danych. Zamiast koncentrować całą swoją moc obliczeniową na jednym obszarze geograficznym, firma tworzy rozproszoną sieć, która działa jak jedna spójna maszyna.

To podejście bezpośrednio rozwiązuje główne wąskie gardła w skalowaniu infrastruktury sztucznej inteligencji: zabezpieczanie wystarczającej ilości terenu i, co ważniejsze, megawatów mocy w jednym miejscu.

Pierwsze połączenie, łączące Wisconsin i Atlantę na dystansie ponad 700 mil, już działa, co potwierdza słuszność koncepcji żywotność. Posunięcie to stanowi kluczową część intensywnego wyścigu zbrojeń opartego na sztucznej inteligencji, w którym najważniejsza jest kontrola mocy obliczeniowej.

Microsoft Atlanta Datacen (Zdj.: Microsoft)

Ta strategia umożliwia firmie Microsoft umieszczanie centrów danych w lokalizacjach o korzystniejszych warunkach — takich jak tańsza ziemia, chłodniejszy klimat lub dostęp do energii odnawialnej — bez poświęcania wydajności pojedynczego, monolitycznego klastra.

„Chodzi o zbudowanie rozproszonej sieci, która może działać jako wirtualny superkomputer do rozwiązywania problemów największych wyzwań świata w sposób, jakiego nie dałoby się zrealizować w jednym obiekcie” – powiedział Alistair Speirs, dyrektor generalny firmy Microsoft zajmujący się infrastrukturą Azure w firmie ogłoszenie.

Microsoft Wisconsin Datacenter za pośrednictwem firmy Microsoft (Zdjęcie: Microsoft)

Skala tej wizji jest ogromna, ponieważ firma uważa, że przyszłe modele sztucznej inteligencji będą wymagały mocy obliczeniowej znacznie przekraczającej możliwości dostępne w pojedynczej lokalizacji. „Ilość infrastruktury wymaganej obecnie do szkolenia tych modeli to nie tylko jedno centrum danych, nie dwa, ale ich wielokrotność” – wyjaśnił Mark Russinovich, dyrektor ds. technicznych Microsoft Azure.

Ta wewnętrzna wersja stanowi jeden z filarów podwójnej strategii, uzupełniając ogromne umowy outsourcingowe, takie jak niedawny kontrakt o wartości 9,7 miliarda dolarów z IREN na zabezpieczenie wydajności zewnętrznego procesora graficznego.

Architektura Fairwater: stworzona z myślą o bilionach parametrów Modele

W każdym obiekcie Fairwater firma Microsoft opracowała nowatorską architekturę zoptymalizowaną wyłącznie pod kątem szkoleń w zakresie sztucznej inteligencji na dużą skalę. Nie są to tradycyjne centra danych zaprojektowane do uruchamiania milionów oddzielnych aplikacji klientów.

Zamiast tego zostały zaprojektowane specjalnie do wykonywania jednego ogromnego, złożonego zadania na całym dostępnym sprzęcie. Same budynki są dwupiętrowe, co zwiększa gęstość procesora graficznego i zmniejsza fizyczną odległość, jaką muszą pokonać sygnały, minimalizując opóźnienia.

Ta pionowa integracja sprzętu i obiektów wpisuje się w szersze dążenia Microsoftu do kontrolowania całego stosu sztucznej inteligencji, w tym niedawne przejście na licencjonowanie niestandardowych projektów chipów OpenAI.

Ta gęstość powoduje powstawanie ogromnego ciepła, któremu Microsoft radzi sobie za pomocą zaawansowanego systemu chłodzenia cieczą bezpośrednio na chip. Konstrukcja z zamkniętą pętlą zużywa „prawie zero wody” podczas swoich operacji, co oznacza znaczny wzrost wydajności.

W swojej siedzibie w Atlancie Microsoft wdroży w każdej szafie wydajne systemy szaf Nvidia GB200 NVL72 może pobierać ponad 140 kilowatów i pomieścić 72 procesory graficzne.

Cały ten stos sprzętowy zaprojektowano z myślą o maksymalnej wydajności, dzięki czemu żaden komponent nie stanie się wąskim gardłem. „Wiodąca pozycja w dziedzinie sztucznej inteligencji nie polega tylko na dodawaniu większej liczby procesorów graficznych – chodzi o budowanie infrastruktury, która sprawi, że będą one współpracować jako jeden system” – stwierdził Scott Guthrie, wiceprezes wykonawczy ds. Cloud + AI w firmie Microsoft.

Łączenie komputera wielkości kontynentu z szybką siecią

Łączenie centrów danych oddalonych od siebie o setki kilometrów stwarza znaczne wyzwania w zakresie opóźnień, ale jest kluczem do uwolnienia tej nowej skali. Aby pokonać te odległości, firma Microsoft zbudowała dedykowaną „AI Wide Area Network” (AI WAN).

Ta prywatna sieć szkieletowa zbudowana jest na zdumiewającej 220 000 mil sieci nowy, dedykowany kabel światłowodowy zapewniający, że dane szkoleniowe AI nie konkurują z ogólnym ruchem internetowym.

Celem jest zapewnienie, aby geograficznie oddzielne witryny zachowywały się tak, jakby znajdowały się w jednym budynku, przy jednoczesnym ciągłym wykorzystaniu drogich procesorów graficznych.

Wymaga to specjalistycznego sprzętu sieciowego o dużej przepustowości, zdolnego do utrzymania wydajności na dużych odległościach.

Chociaż Microsoft nie podał oficjalnie nazwy swojego dostawcy, branża opracowała kilka skutecznych rozwiązań tego właśnie problemu. Na przykład układ ASIC Jericho4 firmy Broadcom został zaprojektowany dla tego typu połączenia międzycentrum danych (DCI).

„Jeśli prowadzisz klaster szkoleniowy i chcesz rozwinąć się poza możliwości pojedynczego budynku, jesteśmy jedynym właściwym rozwiązaniem rozwiązania” – zauważył Amir Sheffer z Broadcom.

Podobnie firma Cisco opracowała swój router 8223 do łączenia centrów danych AI oddalonych od siebie do 1000 kilometrów, przy czym Microsoft został uznany za jednego z pierwszych oceniających to rozwiązanie tech.

Z najnowszych raportów wynika, że sieć wewnętrzna korzysta z dwuwarstwowego zaplecza Ethernet, na którym działa własny system operacyjny SONiC (Software for Open Networking in the Cloud) firmy Microsoft, zapewniający łączność 800 Gb/s na łącze.

Biorąc pod uwagę głęboką współpracę Microsoftu z Nvidią, platforma Spectrum-XGS giganta GPU jest również silnym pretendentem do struktury łączącej te witryny. To podejście do sprzętu pochodzącego od wielu dostawców ma kluczowe znaczenie dla uniknięcia zależności – strategii, którą Microsoft realizuje w całym swoim stosie, włączając wysiłki, aby oprogramowanie CUDA firmy Nvidia działało na konkurencyjnych chipach AMD.

Opanowując zarówno konstrukcję fizyczną, jak i złożoną sieć, która łączy to wszystko, Microsoft przygotowuje się do kontrolowania warstwy podstawowej dla następnej ery rozwoju sztucznej inteligencji.

Categories: IT Info