Kjo faqe mund të fitojë komisione shoqëruese nga lidhjet në këtë faqe. Kushtet e përdorimit.

Është një fakt të jetës që mbajtja e kompjuterit tuaj të funksionojë në formë të mirë kërkon vigjilencë të vazhdueshme. Tani imagjinoni të përpiqeni të mbani një superkompjuter me miliona pjesë që funksionojnë pa probleme. Kjo është detyra me të cilën po merret aktualisht Justin Whitt, Drejtor Programi në Laboratorin Kombëtar Oak Ridge (ORNL). Në një intervistë të fundit, ai diskutoi disa nga problemet që laboratori ka pasur me superkompjuterin e tij të ri Frontier. Kjo makinë përbindësh është kompjuteri i parë ekzascale në botë. Ai debutoi në qershor në vendin e parë në listën TOP500 të kompjuterëve më të fuqishëm në botë. Ai ka përshkruar disa nga problemet e reja me Frontier, duke thënë se aktualisht po përjeton dështime të sistemit çdo disa orë.

Frontier ishte në ndërtim për tre vjet, me një kosto të raportuar prej 600 milionë dollarësh. Ai funksionon në arkitekturën HPE Cray EX235a me procesorë AMD EPYC 64C. Ai përmban 74 kabinete me më shumë se 9,400 nyje të fuqizuara nga AMD për një total prej 606,208 bërthamash CPU. GPU-të e tij 37,888 AMD Radeon Instinct MI250X i japin atij gjithashtu 8,335,360 bërthama GPU. Ai përdor mbi 90 milje kabllo për të lidhur gjithçka.

Megjithëse mbajtja e një sistemi si ky tingëllon i vështirë, kjo është puna e Whitt dhe ai thotë se ka qenë një udhëtim interesant deri tani. Ai përshkroi problemet me të cilat po përballet ekipi në një intervistë me InsideHPC: “Ne po punojmë me problemet në harduer dhe po sigurohemi që të kuptojmë (çfarë janë ato) sepse do të keni dështime në këtë shkallë.” Ai e përmblodhi situatën duke thënë: “Koha mesatare ndërmjet dështimit në një sistem i kësaj madhësie është orë, nuk është ditë.”

[përmbajtja e integruar]

Whitt nuk pranoi të hynte në detaje se cili harduer kishte probleme. InsideHPC thotë se më parë ishte pëlhura HPE Slingshot, një ndërprerës me 64 porte, me shpejtësi të lartë që lidh tehet brenda sistemit. Këto çështje me sa duket u zgjidhën, pasi sistemi ishte në gjendje të ekzekutonte standardin e Linpack me Performancë të Lartë. Aktualisht, disa nga problemet me sa duket lidhen me përshpejtuesit AMD Instinct GPU.”Çështjet përfshijnë shumë kategori të ndryshme, GPU-të janë vetëm një,”tha Whitt. Ai tha se problemi është i përhapur në mënyrë të barabartë midis pajisjeve të ndryshme të Frontier. Gjithashtu, problemet me sa duket lindin kur kompjuteri po ekzekuton ngarkesa pune jashtëzakonisht të vështira, sipas Whitt thotë se ekzekutimi i një standardi është një kuti e ndryshme krimbash në krahasim me ekzekutimin e aplikacioneve shkencore.

Pavarësisht, sistemi nuk pritet të jetë plotësisht funksional për detyra shkencore deri në janar 2023. Kjo do të thotë se Whitt dhe skuadra e tij ka ende pak kohë për të zgjidhur problemet. Megjithatë, duket se ekipi ka përfunduar punën e tij për të. Whitt tha që të shkosh një ditë të vetme pa një dështim”do të ishte e jashtëzakonshme”. Ai më pas tha se qëllimi për kohën e funksionimit”është ende orë”, i cili me sa duket është më i gjatë se shkalla e tij aktuale e dështimit. Edhe pse kjo tingëllon si një situatë e vështirë, Frontier ka 60 milionë pjesë, kështu që nuk është për t’u habitur që ka disa”lemje”, sipas Uitt. Pavarësisht këtyre çështjeve dhe vonesave të zinxhirit të furnizimit të lidhura me COVID-19, Whitt thotë se kompania është ende në rrugën e duhur për datën e prezantimit, kur Frontier do të fillojë punën e saj aktuale të ekzekutimit të programeve të përdoruesve dhe jo vetëm standardeve.

Tani Lexo:

Categories: IT Info