Superkomputer Exascale Bertenaga AMD Memiliki Kegagalan Sistem Setiap Beberapa Jam 82567062173 Situs ini dapat memperoleh komisi afiliasi dari tautan di halaman ini. Persyaratan penggunaan. Itu fakta kehidupan yang menjaga PC Anda berjalan dalam kondisi prima membutuhkan kewaspadaan yang konstan. Sekarang bayangkan mencoba menjaga superkomputer dengan jutaan bagian berjalan dengan lancar. Itulah tugas yang sedang ditangani Justin Whitt, Direktur Program di Laboratorium Nasional Oak Ridge (ORNL). Dalam sebuah wawancara baru-baru ini, dia membahas beberapa masalah yang dimiliki lab dengan superkomputer Frontier yang baru. Mesin monster ini adalah komputer exascale pertama di dunia. Ini memulai debutnya pada bulan Juni di tempat # 1 di daftar TOP500 komputer paling kuat di dunia. Dia telah menjelaskan beberapa masalah gigi dengan Frontier, dengan mengatakan bahwa saat ini mengalami kegagalan sistem setiap beberapa jam.Frontier sedang dibangun selama tiga tahun, dengan biaya yang dilaporkan sebesar $600 juta dolar. Ini berjalan pada arsitektur HPE Cray EX235a dengan prosesor AMD EPYC 64C. Ini memiliki 74 kabinet dengan lebih dari 9.400 node bertenaga AMD dengan total 606.208 core CPU. 37.888 GPU AMD Radeon Instinct MI250X-nya juga memberikan 8.335.360 inti GPU. Ini menggunakan lebih dari 90 mil kabel untuk menghubungkan semuanya.Meskipun mempertahankan sistem seperti ini terdengar berat, itulah pekerjaan Whitt, dan sejauh ini dia mengatakan ini adalah perjalanan yang menarik. Dia menjelaskan masalah yang dihadapi tim dalam sebuah wawancara dengan InsideHPC: “Kami sedang menangani masalah dalam perangkat keras dan memastikan bahwa kami memahami (apa itu) karena Anda akan mengalami kegagalan pada skala ini.”Dia meringkas situasi dengan mengatakan,”Waktu rata-rata antara kegagalan pada sistem ukuran ini adalah jam, bukan hari.”[konten yang disematkan]Whitt menolak menjelaskan secara rinci tentang perangkat keras mana yang mengalami masalah. InsideHPC mengatakan bahwa sebelumnya itu adalah kain HPE Slingshot, sakelar 64-port berkecepatan tinggi yang menghubungkan bilah di dalam sistem. Masalah tersebut tampaknya telah teratasi, karena sistem dapat menjalankan benchmark Linpack Berkinerja Tinggi. Saat ini, beberapa masalah tampaknya terkait dengan akselerator GPU AMD Instinct.”Masalahnya mencakup banyak kategori yang berbeda, GPU hanya satu,”kata Whitt. Dia mengatakan masalahnya cukup merata di antara berbagai perangkat keras Frontier. Juga, masalah tampaknya muncul ketika komputer menjalankan beban kerja yang sangat menuntut, menurut Whitt mengatakan menjalankan benchmark adalah cara yang berbeda dari worm dibandingkan dengan menjalankan aplikasi ilmiah.Bagaimanapun, sistem ini diperkirakan tidak akan beroperasi penuh untuk tugas-tugas ilmiah hingga Januari 2023. Ini berarti Whitt dan timnya masih punya waktu untuk memecahkan masalah. Namun, sepertinya tim memiliki pekerjaan yang tepat untuk itu. Whitt mengatakan menjalani satu hari tanpa kegagalan”akan luar biasa.”Dia kemudian mengatakan tujuan untuk uptime”masih berjam-jam,”yang tampaknya lebih lama dari tingkat kegagalan saat ini. Meskipun kedengarannya seperti situasi yang sulit, Frontier memiliki 60 juta bagian, jadi tidak mengherankan ada beberapa”cegukan,”menurut Whitt. Terlepas dari masalah ini dan penundaan rantai pasokan terkait COVID-19, Whitt mengatakan perusahaan masih berada di jalur yang tepat untuk tanggal peluncuran, ketika Frontier akan memulai tugas sebenarnya dalam menjalankan program pengguna dan bukan hanya tolok ukur.Baca Sekarang: 82567062173 Apakah mereka mencoba mematikan dan menghidupkannya kembali?
Pelajari cara mengecualikan situs tertentu dari Saver Memori Chrome untuk menjaga tab-tab penting selalu aktif dan mencegahnya tertidur. Google Chrome memiliki prestasi yang luar biasa
Berlaku untuk: Excel untuk Microsoft 365 pada Windows (saluran saat ini), Excel untuk Mac (termasuk catatan), dan Excel pada perangkat di mana copilot muncul di pita. Sasaran: Matikan Copilot di EX