Tapak ini mungkin mendapat komisen ahli gabungan daripada pautan pada halaman ini. Syarat penggunaan.

Itu fakta kehidupan yang memastikan PC anda berjalan dalam keadaan terbaik memerlukan kewaspadaan yang berterusan. Sekarang bayangkan cuba mengekalkan superkomputer dengan berjuta-juta bahagian berjalan lancar. Itulah tugas yang sedang ditangani oleh Justin Whitt, Pengarah Program di Makmal Kebangsaan Oak Ridge (ORNL). Dalam temu bual baru-baru ini, beliau membincangkan beberapa isu yang dihadapi oleh makmal dengan superkomputer Frontier baharunya. Mesin raksasa ini ialah komputer exascale pertama di dunia. Ia memulakan kerjaya pada bulan Jun di tempat #1 dalam senarai TOP500 komputer paling berkuasa di dunia. Beliau telah menerangkan beberapa masalah tumbuh gigi dengan Frontier, mengatakan ia kini mengalami kegagalan sistem setiap beberapa jam.

Frontier sedang dalam pembinaan selama tiga tahun, dengan kos yang dilaporkan sebanyak $600 juta dolar. Ia berjalan pada seni bina HPE Cray EX235a dengan pemproses AMD EPYC 64C. Ia mempunyai 74 kabinet dengan lebih daripada 9,400 nod berkuasa AMD untuk sejumlah 606,208 teras CPU. 37,888 AMD Radeon Instinct MI250X GPU memberikannya 8,335,360 teras GPU juga. Ia menggunakan lebih daripada 90 batu kabel untuk menyambungkan segala-galanya.

Walaupun menyelenggara sistem seperti ini kedengaran membebankan, itu adalah tugas Whitt, dan dia berkata ia merupakan perjalanan yang menarik setakat ini. Beliau menerangkan isu yang dihadapi oleh pasukan itu dalam temu bual dengan InsideHPC: “Kami sedang menangani isu dalam perkakasan dan memastikan bahawa kami memahami (apa itu) kerana anda akan mengalami kegagalan pada skala ini.”Dia meringkaskan keadaan dengan berkata,”Masa antara kegagalan pada sistem saiz ini adalah jam, bukan hari.”

[kandungan terbenam]

Whitt enggan menjelaskan secara terperinci tentang perkakasan yang mengalami masalah. InsideHPC mengatakan bahawa sebelum ini ia adalah fabrik HPE Slingshot, suis berkelajuan tinggi 64 port yang menyambungkan bilah dalam sistem. Isu tersebut nampaknya telah diselesaikan, kerana sistem itu dapat menjalankan penanda aras Linpack Berprestasi Tinggi. Pada masa ini, beberapa masalah nampaknya berkaitan dengan pemecut GPU AMD Instinct.”Isu menjangkau banyak kategori yang berbeza, GPU hanyalah satu,”kata Whitt. Beliau berkata masalah itu cukup merata di kalangan pelbagai perkakasan Frontier. Selain itu, isu itu nampaknya timbul apabila komputer melaksanakan beban kerja yang sangat mencabar, menurut laporan itu. Whitt berkata menjalankan penanda aras adalah satu tin cacing yang berbeza berbanding dengan menjalankan aplikasi saintifik.

Walau apa pun, sistem itu tidak dijangka beroperasi sepenuhnya untuk tugas saintifik sehingga Januari 2023. Ini bermakna Whitt dan pasukannya masih mempunyai sedikit masa untuk menyelesaikan masalah. Namun, nampaknya pasukan itu telah menyelesaikan tugasnya. Whitt berkata pergi satu hari tanpa kegagalan”akan cemerlang.”Dia kemudian berkata matlamat untuk masa beroperasi”masih berjam-jam”, yang nampaknya lebih panjang daripada kadar kegagalan semasa. Walaupun itu kedengaran seperti situasi yang sukar, Frontier mempunyai 60 juta bahagian, jadi tidak menghairankan terdapat beberapa”gangguan,”menurut Whitt. Walaupun isu ini dan kelewatan rantaian bekalan berkaitan COVID-19, Whitt berkata syarikat itu masih berada di landasan untuk tarikh pelancaran, apabila Frontier akan memulakan tugas sebenar menjalankan program pengguna dan bukan hanya penanda aras.

Sekarang Baca:

Categories: IT Info