Co kilka godzin dochodzi do awarii systemu w superkomputerze Exascale z procesorem AMD

Ta witryna może pobierać prowizje partnerskie za korzystanie z łączy na tej stronie. Warunki korzystania.

To fakt życia, że utrzymanie komputera w doskonałej kondycji wymaga ciągłej czujności. Teraz wyobraź sobie, że próbujesz utrzymać sprawnie działający superkomputer z milionami części. Tym zadaniem zajmuje się obecnie Justin Whitt, dyrektor programowy w Oak Ridge National Laboratory (ORNL). W niedawnym wywiadzie omówił niektóre problemy, jakie laboratorium miało z nowym superkomputerem Frontier. Ta potworna maszyna to pierwszy na świecie komputer eksaskalowy. Zadebiutował w czerwcu na pierwszym miejscu listy TOP500 najpotężniejszych komputerów świata. Opisał niektóre z początkowych problemów z Frontier, mówiąc, że obecnie co kilka godzin występują awarie systemu.

Frontier był w budowie przez trzy lata, co zgłoszono koszt 600 milionów dolarów. Działa na architekturze HPE Cray EX235a z procesorami AMD EPYC 64C. Zawiera 74 szafy z ponad 9400 węzłami z procesorami AMD, co daje łącznie 606 208 rdzeni procesora. Jego 37 888 procesorów graficznych AMD Radeon Instinct MI250X zapewnia również 8 335 360 rdzeni graficznych. Do połączenia wszystkiego używa ponad 90 mil kabli.

Chociaż utrzymanie takiego systemu brzmi uciążliwie, to jest praca Whitta i mówi, że jak dotąd była to interesująca podróż. Opisał problemy, z którymi boryka się zespół w wywiadzie dla InsideHPC: „Pracujemy nad problemami ze sprzętem i upewniamy się, że rozumiemy (czym one są), ponieważ będziesz mieć awarie na taką skalę”. Podsumował sytuację, mówiąc: „Średni czas między awarią na system tego rozmiaru to godziny, a nie dni.”

[zawartość osadzona]

Whitt odmówił szczegółowego omówienia, na którym sprzęcie wystąpiły problemy. InsideHPC twierdzi, że wcześniej była to tkanina HPE Slingshot, 64-portowy, szybki przełącznik, który łączy serwery kasetowe w systemie. Problemy te zostały najwyraźniej rozwiązane, ponieważ system był w stanie uruchomić test porównawczy High-Performance Linpack. Obecnie niektóre problemy są najwyraźniej związane z akceleratorami GPU AMD Instinct. „Problemy obejmują wiele różnych kategorii, procesory graficzne to tylko jedna”, powiedział Whitt. Powiedział, że problem jest dość równomiernie rozłożony na różne urządzenia Frontier. raport. Whitt mówi, że uruchomienie testu porównawczego to inna puszka robaków w porównaniu z uruchamianiem aplikacji naukowych.

Niezależnie od tego, oczekuje się, że system będzie w pełni operacyjny w przypadku zadań naukowych do stycznia 2023 r. Oznacza to, że Whitt i jego zespół wciąż ma trochę czasu na rozwiązanie problemów. Mimo to wydaje się, że zespół ma przed sobą pracę. Whitt powiedział, że jeden dzień bez porażki „byłby znakomity”. Następnie powiedział, że celem dla dyspozycyjności są „nadal godziny”, co jest najwyraźniej dłuższe niż obecny wskaźnik awaryjności. Choć brzmi to jak trudna sytuacja, Frontier ma 60 milionów części, więc nie jest zaskoczeniem, że istnieją pewne „czkawki” według Whitta. Pomimo tych problemów i opóźnień w łańcuchu dostaw związanych z COVID-19, Whitt twierdzi, że firma jest nadal na dobrej drodze do daty wprowadzenia, kiedy Frontier rozpocznie swoją rzeczywistą pracę polegającą na uruchamianiu programów użytkownika, a nie tylko testów porównawczych.

strong>Teraz przeczytaj:

Co kilka godzin dochodzi do awarii systemu w superkomputerze Exascale z procesorem AMD

Published by All Things Windows on October 13, 2022

IT Info

Aktualizuj sterowniki procesora AMD szybko i bezpiecznie

IT Info

Przewodnik dla początkujących dotyczący pobierania gier dla Yuzu

IT Info

Jak włączyć kanał HDMI Ethernet na swoich urządzeniach

Co kilka godzin dochodzi do awarii systemu w superkomputerze Exascale z procesorem AMD

Published by All Things Windows on October 13, 2022

Related Posts

IT Info

Aktualizuj sterowniki procesora AMD szybko i bezpiecznie

IT Info

Przewodnik dla początkujących dotyczący pobierania gier dla Yuzu

IT Info

Jak włączyć kanał HDMI Ethernet na swoich urządzeniach