該站點可以通過此頁面上的鏈接賺取附屬佣金。 使用條款

這是事實讓您的 PC 以最佳狀態運行需要時刻保持警惕。現在想像一下,試圖讓擁有數百萬個部件的超級計算機保持平穩運行。這就是橡樹嶺國家實驗室 (ORNL) 項目主任 Justin Whitt 目前正在處理的任務。在最近的一次採訪中,他討論了實驗室在使用新的 Frontier 超級計算機時遇到的一些問題。這台巨型機器是世界上第一台百億億次計算機。它於 6 月首次亮相,在世界上最強大的計算機 TOP500 榜單中排名第一。他描述了 Frontier 的一些初期問題,稱目前每隔幾個小時就會出現一次系統故障。

Frontier 已經建設了三年,據報導耗資 6 億美元。它在配備 AMD EPYC 64C 處理器的 HPE Cray EX235a 架構上運行。它具有 74 個機櫃,具有超過 9,400 個 AMD 驅動的節點,總共 606,208 個 CPU 內核。它的 37,888 個 AMD Radeon Instinct MI250X GPU 也為其提供了 8,335,360 個 GPU 內核。它使用超過 90 英里的電纜來連接所有東西。

雖然維護這樣的系統聽起來很繁重,但這是 Whitt 的工作,他說到目前為止這是一段有趣的旅程。他在接受 InsideHPC 採訪時描述了團隊面臨的問題: “我們正在解決硬件問題,並確保我們了解(它們是什麼),因為您將遇到這種規模的故障。”他總結了這種情況,說:“平均故障間隔時間這種規模的系統需要幾個小時,而不是幾天。”

[嵌入式內容]

Whitt 拒絕詳細說明哪些硬件遇到了問題。 InsideHPC 表示,之前使用的是 HPE Slingshot 結構,這是一種 64 端口高速交換機,用於連接系統內的刀片。這些問題顯然已經解決,因為系統能夠運行高性能 Linpack 基準測試。目前,一些問題顯然與 AMD Instinct GPU 加速器有關。 Whitt 說:“這些問題涉及許多不同的類別,GPU 只是其中之一。”他說,問題在 Frontier 的各種硬件中分佈得相當均勻。此外,當計算機執行極其苛刻的工作負載時,問題顯然會出現。 Whitt 說,與運行科學應用程序相比,運行基準測試是一種不同的蠕蟲。

無論如何,該系統預計要到 2023 年 1 月才能完全用於科學任務。這意味著 Whitt 和他的團隊仍有一些時間進行故障排除。不過,團隊似乎已經完成了工作。惠特說,如果一天沒有失敗,“會很出色”。然後他說,正常運行時間的目標“仍然是幾個小時”,這顯然比目前的故障率要長。雖然這聽起來很困難,但 Frontier 有 6000 萬個零件,因此出現一些“小問題”也就不足為奇了。惠特。儘管存在這些問題以及與 COVID-19 相關的供應鏈延遲,但 Whitt 表示,該公司仍在按計劃推出日期,屆時 Frontier 將開始運行用戶程序的實際工作,而不僅僅是基準測試。

現在閱讀:

Categories: IT Info