Deze site kan aangesloten commissies verdienen via de links op deze pagina. Gebruiksvoorwaarden.
Het is een feit van het leven dat om uw pc in topconditie te houden, constante waakzaamheid vereist is. Stel je nu eens voor dat je probeert een supercomputer met miljoenen onderdelen soepel te laten werken. Dat is de taak waarmee Justin Whitt, programmadirecteur van Oak Ridge National Laboratory (ORNL), zich momenteel bezighoudt. In een recent interview besprak hij enkele van de problemen die het lab had met zijn nieuwe Frontier-supercomputer. Deze monstermachine is’s werelds eerste exascale computer. Het debuteerde in juni op de nummer 1 plek op de TOP500-lijst van’s werelds krachtigste computers. Hij heeft enkele kinderziektes met Frontier beschreven en zegt dat er momenteel om de paar uur systeemstoringen zijn.
Frontier was drie jaar in aanbouw, tegen een geschatte kostprijs van $600 miljoen dollar. Het draait op de HPE Cray EX235a-architectuur met AMD EPYC 64C-processors. Het beschikt over 74 kasten met meer dan 9.400 AMD-aangedreven nodes voor een totaal van 606.208 CPU-kernen. De 37.888 AMD Radeon Instinct MI250X GPU’s geven hem ook 8.335.360 GPU-cores. Het gebruikt meer dan 90 mijl aan bekabeling om alles aan te sluiten.
Hoewel het onderhouden van een systeem als dit lastig klinkt, is dat de taak van Whitt, en hij zegt dat het tot nu toe een interessante reis is geweest. Hij beschreef de problemen waarmee het team wordt geconfronteerd in een interview met InsideHPC:“We werken aan hardwareproblemen en zorgen ervoor dat we begrijpen (wat ze zijn) omdat je op deze schaal storingen zult krijgen.”Hij vatte de situatie samen door te zeggen:”Gemiddelde tijd tussen storing op een systeem van deze omvang is uren, het zijn geen dagen.”
[embedded content]
Whitt weigerde in detail te treden over welke hardware problemen ondervond. InsideHPC zegt dat het voorheen de HPE Slingshot-stof was, een 64-poorts high-speed switch die de blades in het systeem verbindt. Die problemen waren blijkbaar opgelost, aangezien het systeem de High-Performance Linpack-benchmark kon uitvoeren. Momenteel zijn sommige van de problemen blijkbaar gerelateerd aan de AMD Instinct GPU-versnellers.”De problemen omvatten veel verschillende categorieën, de GPU’s zijn er maar één”, zei Whitt. Hij zei dat de problemen redelijk gelijk verdeeld zijn over de verschillende hardware van Frontier. Ook treden de problemen blijkbaar op wanneer de computer extreem veeleisende werkbelastingen uitvoert, volgens Whitt zegt dat het uitvoeren van een benchmark een ander blik wormen is dan het draaien van wetenschappelijke applicaties.
Hoe dan ook, het systeem zal naar verwachting pas in januari 2023 volledig operationeel zijn voor wetenschappelijke taken. Dit betekent dat Whitt en zijn team heeft nog wat tijd om de problemen op te lossen. Toch lijkt het erop dat het team nog veel werk voor de boeg heeft. Whitt zei dat een enkele dag zonder falen”uitstekend zou zijn.”Hij zei toen dat het doel voor uptime”nog steeds uren”is, wat blijkbaar langer is dan het huidige uitvalpercentage. Hoewel dat klinkt als een moeilijke situatie, heeft Frontier 60 miljoen onderdelen, dus het is niet verwonderlijk dat er enkele”haperingen”zijn, volgens Whitt. Ondanks deze problemen en COVID-19-gerelateerde vertragingen in de toeleveringsketen, zegt Whitt dat het bedrijf nog steeds op schema ligt voor de uitroldatum, wanneer Frontier begint met het uitvoeren van gebruikersprogramma’s en niet alleen benchmarks.
Nu lezen: