Acest site poate câștiga comisioane afiliate din linkurile de pe această pagină. Termeni de utilizare.

Este un fapt de viață care menținerea PC-ului tău să funcționeze într-o formă maximă necesită o vigilență constantă. Acum imaginați-vă că încercați să mențineți un supercomputer cu milioane de piese să funcționeze fără probleme. Aceasta este sarcina cu care se ocupă în prezent Justin Whitt, director de program la Laboratorul Național Oak Ridge (ORNL). Într-un interviu recent, el a discutat despre unele dintre problemele pe care le-a avut laboratorul cu noul său supercomputer Frontier. Această mașină monstru este primul computer exascale din lume. A debutat în iunie pe locul 1 în topul TOP500 al celor mai puternice computere din lume. El a descris unele dintre problemele de început cu Frontier, spunând că în prezent se confruntă cu defecțiuni ale sistemului la fiecare câteva ore.

Frontier a fost în construcție timp de trei ani, la un cost raportat de 600 de milioane de dolari. Funcționează pe arhitectura HPE Cray EX235a cu procesoare AMD EPYC 64C. Dispune de 74 de cabinete cu peste 9.400 de noduri alimentate de AMD, pentru un total de 606.208 nuclee CPU. Cele 37.888 de GPU-uri AMD Radeon Instinct MI250X îi oferă și 8.335.360 de nuclee GPU. Utilizează peste 90 de mile de cabluri pentru a conecta totul.

Deși întreținerea unui sistem ca acesta sună oneroasă, aceasta este treaba lui Whitt și spune că a fost o călătorie interesantă până acum. El a descris problemele cu care se confruntă echipa într-un interviu cu InsideHPC: „Lucrăm la problemele hardware și ne asigurăm că înțelegem (care sunt acestea) pentru că veți avea eșecuri la această scară.” El a rezumat situația spunând: „Timp mediu între eșecuri pe un sistem de această dimensiune este de ore, nu de zile.”

[conținut încorporat]

Whitt a refuzat să intre în detalii despre hardware-ul care se confruntă cu probleme. InsideHPC spune că anterior era materialul HPE Slingshot, un comutator de mare viteză cu 64 de porturi care conectează lamele din sistem. Aceste probleme au fost aparent rezolvate, deoarece sistemul a putut rula benchmark-ul Linpack de înaltă performanță. În prezent, unele dintre probleme sunt aparent legate de acceleratoarele GPU AMD Instinct. „Problemele acoperă multe categorii diferite, GPU-urile sunt doar una”, a spus Whitt. El a spus că problema este răspândită destul de uniform între diferitele hardware ale Frontier. De asemenea, problemele apar aparent atunci când computerul execută sarcini de lucru extrem de solicitante, potrivit raportul. Whitt spune că rularea unui etalon de referință este o cutie diferită de viermi în comparație cu rularea aplicațiilor științifice.

Indiferent, sistemul nu este de așteptat să fie complet operațional pentru sarcini științifice până în ianuarie 2023. Aceasta înseamnă că Whitt și echipa lui mai are ceva timp pentru a rezolva problemele. Cu toate acestea, se pare că echipa are treaba pentru asta. Whitt a spus că a merge o singură zi fără un eșec „ar fi remarcabil”. El a spus apoi că obiectivul de funcționare „sunt încă ore”, ceea ce este aparent mai mare decât rata actuală de eșec. Deși pare o situație dificilă, Frontier are 60 de milioane de piese, așa că nu este surprinzător că există unele „sughițuri”, potrivit datelor. Whitt. În ciuda acestor probleme și a întârzierilor în lanțul de aprovizionare legate de COVID-19, Whitt spune că compania este încă pe cale pentru data lansării, când Frontier își va începe munca reală de a rula programe de utilizator și nu doar benchmark-uri.

Citiți acum:

Categories: IT Info