Ang site na ito ay maaaring makakuha ng mga affiliate na komisyon mula sa mga link sa pahinang ito. Mga tuntunin sa paggamit.
Ito ay isang katotohanan ng buhay na ang pagpapanatiling gumagana ang iyong PC sa tip-top na hugis ay nangangailangan ng patuloy na pagbabantay. Ngayon isipin na lang na sinusubukang panatilihin ang isang supercomputer na may milyun-milyong bahagi na tumatakbo nang maayos. Iyan ang gawain na kasalukuyang kinakaharap ni Justin Whitt, Direktor ng Programa sa Oak Ridge National Laboratory (ORNL). Sa isang kamakailang panayam, tinalakay niya ang ilan sa mga isyu ng lab sa bago nitong Frontier supercomputer. Ang monster machine na ito ang unang exascale na computer sa mundo. Nag-debut ito noong Hunyo sa #1 na puwesto sa TOP500 na listahan ng pinakamakapangyarihang mga computer sa mundo. Inilarawan niya ang ilan sa mga problema sa pagngingipin sa Frontier, na nagsasabing kasalukuyan itong nakakaranas ng mga pagkabigo ng system bawat ilang oras.
Ang Frontier ay nasa ilalim ng konstruksiyon sa loob ng tatlong taon, sa iniulat na halaga na $600 milyong dolyar. Gumagana ito sa arkitektura ng HPE Cray EX235a na may mga processor ng AMD EPYC 64C. Nagtatampok ito ng 74 cabinet na may higit sa 9,400 AMD-powered node para sa kabuuang 606,208 CPU core. Ang 37,888 AMD Radeon Instinct MI250X GPUs nito ay nagbibigay din ng 8,335,360 GPU cores. Gumagamit ito ng mahigit 90 milya ng paglalagay ng kable upang ikonekta ang lahat.
Bagaman ang pagpapanatili ng isang sistemang tulad nito ay mukhang mabigat, iyon ang trabaho ni Whitt, at sinabi niyang ito ay isang kawili-wiling paglalakbay sa ngayon. Inilarawan niya ang mga isyung kinakaharap ng team sa isang panayam sa InsideHPC: “Ginagawa namin ang mga isyu sa hardware at tinitiyak namin na nauunawaan namin (kung ano ang mga ito) dahil magkakaroon ka ng mga pagkabigo sa sukat na ito.”Binuod niya ang sitwasyon sa pagsasabing,”Mean time between failure on isang system na ang laki nito ay mga oras, hindi ito araw.”
[naka-embed na nilalaman]
Tumanggi si Whitt na magdetalye tungkol sa kung aling hardware ang nakakaranas ng mga isyu. Sinasabi ng InsideHPC na dati ay ang HPE Slingshot fabric, isang 64-port, high-speed switch na nagkokonekta sa mga blades sa loob ng system. Ang mga isyung iyon ay tila nalutas, dahil ang system ay nakapagpatakbo ng High-Performance Linpack benchmark. Sa kasalukuyan, ang ilan sa mga problema ay tila nauugnay sa mga accelerator ng AMD Instinct GPU.”Ang mga isyu ay sumasaklaw sa maraming iba’t ibang mga kategorya, ang mga GPU ay isa lamang,”sabi ni Whitt. Sinabi niya na ang problema ay medyo pantay-pantay na kumakalat sa iba’t ibang hardware ng Frontier. Gayundin, ang mga isyu ay lumilitaw na lumilitaw kapag ang computer ay nagpapatupad ng labis na hinihingi na mga workload, ayon sa ang ulat. Sinabi ni Whitt na ang pagpapatakbo ng benchmark ay ibang lata ng worm kumpara sa pagpapatakbo ng mga siyentipikong aplikasyon.
Anuman, ang system ay hindi inaasahang magiging ganap na gumagana para sa mga gawaing pang-agham hanggang Enero 2023. Nangangahulugan ito na si Whitt at may ilang oras pa ang kanyang team para mag-troubleshoot. Gayunpaman, mukhang may trabaho ang team para dito. Sinabi ni Whitt na ang pagpunta sa isang araw nang walang kabiguan ay”magiging outstanding.”Pagkatapos ay sinabi niya na ang layunin para sa uptime ay”mga oras pa,”na tila mas mahaba kaysa sa kasalukuyang rate ng pagkabigo nito. Bagama’t mukhang mahirap na sitwasyon, ang Frontier ay may 60 milyong bahagi, kaya hindi nakakagulat na mayroong ilang”mga hiccups,”ayon sa Whitt. Sa kabila ng mga isyung ito at pagkaantala sa supply chain na nauugnay sa COVID-19, sinabi ni Whitt na nasa track pa rin ang kumpanya para sa petsa ng paglulunsad, kung kailan magsisimula ang Frontier sa aktwal nitong trabaho sa pagpapatakbo ng mga program ng user at hindi lamang sa mga benchmark.
Basahin Ngayon: