Trang web này có thể kiếm được hoa hồng liên kết từ các liên kết trên trang này. Điều khoản sử dụng .

Đó là một sự thật của cuộc sống để giữ cho PC của bạn hoạt động ở trạng thái đỉnh cao đòi hỏi sự cảnh giác thường xuyên. Bây giờ, hãy tưởng tượng cố gắng giữ cho một siêu máy tính với hàng triệu bộ phận hoạt động trơn tru. Đó là nhiệm vụ mà Justin Whitt, Giám đốc Chương trình tại Phòng thí nghiệm Quốc gia Oak Ridge (ORNL), hiện đang giải quyết. Trong một cuộc phỏng vấn gần đây, ông đã thảo luận về một số vấn đề mà phòng thí nghiệm gặp phải với siêu máy tính Frontier mới của mình. Cỗ máy quái vật này là máy tính exascale đầu tiên trên thế giới. Nó ra mắt vào tháng 6 ở vị trí số 1 trong danh sách TOP500 máy tính mạnh nhất thế giới. Anh ấy đã mô tả một số vấn đề khi mọc răng với Frontier, nói rằng nó hiện đang gặp lỗi hệ thống cứ sau vài giờ.

Frontier được xây dựng trong ba năm, với chi phí được báo cáo là 600 triệu đô la. Nó chạy trên kiến ​​trúc HPE Cray EX235a với bộ vi xử lý AMD EPYC 64C. Nó có 74 tủ với hơn 9.400 nút được hỗ trợ bởi AMD với tổng số 606.208 lõi CPU. 37.888 GPU AMD Radeon Instinct MI250X của nó cũng cung cấp cho nó 8.335.360 lõi GPU. Nó sử dụng hơn 90 dặm cáp để kết nối mọi thứ.

Mặc dù việc duy trì một hệ thống như thế này nghe có vẻ khó khăn nhưng đó là công việc của Whitt và anh ấy nói rằng đó là một hành trình thú vị cho đến nay. Anh ấy mô tả các vấn đề mà nhóm đang gặp phải trong một cuộc phỏng vấn với InsideHPC: “Chúng tôi đang giải quyết các vấn đề trong phần cứng và đảm bảo rằng chúng tôi hiểu (chúng là gì) bởi vì bạn sẽ gặp thất bại ở quy mô này.”hệ thống có kích thước này là giờ chứ không phải ngày.”

[nội dung được nhúng]

Whitt từ chối đi vào chi tiết về phần cứng nào đang gặp sự cố. InsideHPC nói rằng trước đây nó là vải HPE Slingshot, một công tắc tốc độ cao, 64 cổng kết nối các lưỡi dao trong hệ thống. Những vấn đề đó rõ ràng đã được giải quyết, vì hệ thống có thể chạy điểm chuẩn Linpack Hiệu suất cao. Hiện tại, một số vấn đề dường như liên quan đến bộ tăng tốc GPU AMD Instinct. Whitt cho biết: “Các vấn đề trải dài trên nhiều danh mục khác nhau, GPU chỉ là một. báo cáo. Whitt nói rằng việc chạy một điểm chuẩn là một sự khác biệt so với việc chạy các ứng dụng khoa học.

Bất kể, hệ thống sẽ không hoạt động hoàn toàn cho các nhiệm vụ khoa học cho đến tháng 1 năm 2023. Điều này có nghĩa là Whitt và nhóm của anh ấy vẫn còn một số thời gian để khắc phục sự cố. Tuy nhiên, có vẻ như nhóm đã hoàn thành công việc của mình. Whitt cho biết đi một ngày mà không gặp thất bại “sẽ rất xuất sắc”. Sau đó, ông cho biết mục tiêu cho thời gian hoạt động”vẫn là giờ”, tức là lâu hơn tỷ lệ thất bại hiện tại của nó. Mặc dù nghe có vẻ là một tình huống khó khăn, nhưng Frontier có 60 triệu phần, vì vậy không có gì ngạc nhiên khi có một số”trục trặc”, theo Whitt. Bất chấp những vấn đề này và sự chậm trễ của chuỗi cung ứng liên quan đến COVID-19, Whitt cho biết công ty vẫn đang đi đúng hướng cho ngày triển khai, khi Frontier sẽ bắt đầu công việc thực tế của mình là chạy các chương trình người dùng chứ không chỉ là điểm chuẩn.

Đang đọc:

Categories: IT Info