このサイトは、このページのリンクからアフィリエイト コミッションを獲得する場合があります。 利用規約

事実ですPC を最高の状態で実行し続けるには、常に注意を払う必要があります。では、数百万のパーツを備えたスーパーコンピューターをスムーズに稼働させようとすることを想像してみてください。これは、オークリッジ国立研究所 (ORNL) のプログラム ディレクターである Justin Whitt が現在取り組んでいるタスクです。最近のインタビューで、彼はラボが新しい Frontier スーパーコンピューターで抱えていた問題のいくつかについて話しました。このモンスター マシンは、世界初のエクサスケール コンピューターです。 6 月に世界で最も強力なコンピューターのトップ 500 リストの第 1 位にデビューしました。彼は Frontier の最初の問題のいくつかを説明し、現在数時間ごとにシステム障害が発生していると述べています。

Frontier は 3 年間建設中で、報告された費用は 6 億ドルでした。 AMD EPYC 64C プロセッサを搭載した HPE Cray EX235a アーキテクチャ上で動作します。合計 606,208 個の CPU コアに対応する 9,400 個を超える AMD 搭載ノードを備えた 74 個のキャビネットが特徴です。その 37,888 個の AMD Radeon Instinct MI250X GPU により、8,335,360 個の GPU コアも提供されます。すべてを接続するために 90 マイル以上のケーブルを使用しています。

このようなシステムを維持するのは面倒に思えますが、それはウィットの仕事であり、これまでのところ興味深い旅だったと彼は言います。彼は InsideHPC とのインタビューでチームが直面している問題について説明しました: 「この規模では障害が発生するため、ハードウェアの問題に取り組んでおり、(それらが何であるか) を理解していることを確認しています。」彼は状況を次のように要約しました。このサイズのシステムは、数日ではなく数時間です。”

[埋め込みコンテンツ]

Whitt 氏は、どのハードウェアで問題が発生したかについての詳細を明らかにすることを拒否しました. InsideHPC によると、以前はシステム内のブレードを接続するのは 64 ポートの高速スイッチである HPE Slingshot ファブリックでした。システムが高性能 Linpack ベンチマークを実行できたため、これらの問題は明らかに解決されました。現在、いくつかの問題は明らかに AMD Instinct GPU アクセラレータに関連しています。 「問題はさまざまなカテゴリにまたがっています。GPU はその 1 つにすぎません」レポート. Whitt は、ベンチマークの実行は、科学アプリケーションの実行とは異なるワームの缶詰であると述べています.

いずれにせよ、このシステムは 2023 年 1 月まで科学タスクで完全に機能するとは予想されていません.これは、Whitt と彼のチームはまだ問題を解決するための時間があります. それでも、チームはそのために仕事を切り詰めているようです. ウィットは、1日も失敗せずに行くことは「素晴らしいだろう」と語った.それから彼は、稼働時間の目標は「まだ数時間」であり、これは現在の故障率よりも明らかに長いと述べました。それは難しい状況のように聞こえますが、Frontier には 6,000 万個の部品があるため、いくつかの「問題」があることは驚くべきことではありません。ウィット。これらの問題と COVID-19 関連のサプライ チェーンの遅延にもかかわらず、Whitt 氏によると、Frontier はベンチマークだけでなく、ユーザー プログラムを実行するという実際の仕事を開始する予定です。

今読む:

Categories: IT Info