Denna webbplats kan tjäna affiliate-provisioner från länkarna på denna sida. Användarvillkor.
Det är ett faktum av livet att hålla din dator igång i toppform kräver konstant vaksamhet. Tänk dig nu bara att försöka hålla en superdator med miljontals delar igång smidigt. Det är den uppgift Justin Whitt, programchef vid Oak Ridge National Laboratory (ORNL), för närvarande sysslar med. I en intervju nyligen diskuterade han några av de problem som labbet har haft med sin nya superdator Frontier. Denna monstermaskin är världens första exascale-dator. Den debuterade i juni på första plats på TOP500-listan över världens kraftfullaste datorer. Han har beskrivit några av barnsjukdomarna med Frontier och sagt att det för närvarande upplever systemfel med några timmars mellanrum.
Frontier var under uppbyggnad i tre år, till en rapporterad kostnad av 600 miljoner dollar. Den körs på HPE Cray EX235a-arkitekturen med AMD EPYC 64C-processorer. Den har 74 skåp med mer än 9 400 AMD-drivna noder för totalt 606 208 CPU-kärnor. Dess 37 888 AMD Radeon Instinct MI250X GPU:er ger den också 8 335 360 GPU-kärnor. Den använder över 90 miles av kablar för att ansluta allt.
Även om det låter krävande att underhålla ett system som detta, är det Whitts jobb, och han säger att det har varit en intressant resa hittills. Han beskrev problemen som teamet står inför i en intervju med InsideHPC:“Vi arbetar igenom problem i hårdvaran och ser till att vi förstår (vad de är) eftersom du kommer att få fel i den här skalan.”Han sammanfattade situationen genom att säga:”Medeltiden mellan fel på ett system med den här storleken är timmar, det är inte dagar.”
[inbäddat innehåll]
Whitt avböjde att gå in i detalj om vilken hårdvara som upplevde problem. InsideHPC säger att det tidigare var HPE Slingshot-tyget, en 64-portars höghastighetsswitch som kopplar ihop bladen i systemet. Dessa problem var uppenbarligen lösta, eftersom systemet kunde köra High-Performance Linpack benchmark. För närvarande är några av problemen tydligen relaterade till AMD Instinct GPU-acceleratorerna.”Problemen spänner över många olika kategorier, GPU:erna är bara en,”sa Whitt. Han sa att problemen är ganska jämnt fördelade på Frontiers olika hårdvara. Problemen uppstår också tydligen när datorn kör extremt krävande arbetsbelastningar, enligt rapporten. Whitt säger att att köra ett riktmärke är en annan burk av maskar jämfört med att köra vetenskapliga applikationer.
Oavsett vad förväntas systemet inte vara fullt operativt för vetenskapliga uppgifter förrän i januari 2023. Detta innebär att Whitt och hans team har fortfarande lite tid på sig att felsöka. Ändå verkar det som om laget har sitt arbete för det. Whitt sa att det skulle vara enastående att gå en dag utan misslyckande. Han sa sedan att målet för drifttid”är fortfarande timmar”, vilket tydligen är längre än dess nuvarande felfrekvens. Även om det låter som en svår situation har Frontier 60 miljoner delar, så det är inte förvånande att det finns några”hicka”, enligt Whitt. Trots dessa problem och covid-19-relaterade förseningar i försörjningskedjan säger Whitt att företaget fortfarande är på rätt spår för lanseringsdatumet, då Frontier kommer att börja sitt verkliga jobb med att köra användarprogram och inte bara riktmärken.
Läs nu: