ไซต์นี้อาจได้รับค่าคอมมิชชั่นจากพันธมิตรจากลิงก์ในหน้านี้ ข้อกำหนดการใช้งาน
เป็นความจริง ที่ทำให้พีซีของคุณทำงานได้อย่างเต็มประสิทธิภาพนั้นต้องใช้ความระมัดระวังอย่างต่อเนื่อง ตอนนี้ลองนึกภาพว่าพยายามทำให้ซูเปอร์คอมพิวเตอร์มีชิ้นส่วนนับล้านทำงานได้อย่างราบรื่น นั่นคืองาน Justin Whitt ผู้อำนวยการโครงการของ Oak Ridge National Laboratory (ORNL) กำลังจัดการอยู่ ในการให้สัมภาษณ์เมื่อเร็ว ๆ นี้ เขาได้กล่าวถึงปัญหาบางอย่างที่ห้องปฏิบัติการมีกับซูเปอร์คอมพิวเตอร์ Frontier ตัวใหม่ เครื่องมอนสเตอร์นี้เป็นคอมพิวเตอร์ exascale เครื่องแรกของโลก เปิดตัวในเดือนมิถุนายนที่ #1 ในรายการ TOP500 ของคอมพิวเตอร์ที่ทรงพลังที่สุดในโลก เขาได้อธิบายถึงปัญหาการงอกของฟันกับ Frontier โดยกล่าวว่าขณะนี้ระบบกำลังประสบกับความล้มเหลวของระบบทุก ๆ สองสามชั่วโมง
Frontier อยู่ระหว่างการก่อสร้างเป็นเวลาสามปีที่รายงานมูลค่า 600 ล้านดอลลาร์ ทำงานบนสถาปัตยกรรม HPE Cray EX235a พร้อมโปรเซสเซอร์ AMD EPYC 64C มีตู้ 74 ตู้ที่มีโหนดที่ขับเคลื่อนด้วย AMD มากกว่า 9,400 ตัวสำหรับแกน CPU ทั้งหมด 606,208 คอร์ 37,888 AMD Radeon Instinct MI250X GPU จำนวน 37,888 คอร์ให้แกน GPU 8,335,360 คอร์เช่นกัน ใช้สายเคเบิลยาวกว่า 90 ไมล์เพื่อเชื่อมต่อทุกอย่าง
แม้ว่าการรักษาระบบแบบนี้จะฟังดูยุ่งยาก แต่นั่นเป็นงานของ Whitt และเขาบอกว่ามันเป็นการเดินทางที่น่าสนใจมาก เขาอธิบายปัญหาที่ทีมกำลังเผชิญในการให้สัมภาษณ์กับ InsideHPC: “เรากำลังดำเนินการแก้ไขปัญหาในฮาร์ดแวร์และทำให้แน่ใจว่าเราเข้าใจ (ว่ามันคืออะไร) เพราะคุณจะประสบความล้มเหลวในระดับนี้” เขาสรุปสถานการณ์โดยกล่าวว่า “เวลาเฉลี่ยระหว่างความล้มเหลวใน ระบบขนาดนี้เป็นชั่วโมง ไม่ใช่วัน”
[เนื้อหาแบบฝัง]
วิตต์ปฏิเสธที่จะให้รายละเอียดเกี่ยวกับฮาร์ดแวร์ที่กำลังประสบปัญหา InsideHPC กล่าวว่าก่อนหน้านี้เป็นผ้า HPE Slingshot ซึ่งเป็นสวิตช์ความเร็วสูง 64 พอร์ตที่เชื่อมต่อใบมีดภายในระบบ เห็นได้ชัดว่าปัญหาเหล่านั้นได้รับการแก้ไขแล้ว เนื่องจากระบบสามารถเรียกใช้เกณฑ์มาตรฐาน Linpack ประสิทธิภาพสูงได้ ปัจจุบัน ปัญหาบางอย่างเกี่ยวข้องกับตัวเร่ง GPU ของ AMD Instinct “ปัญหาครอบคลุมหมวดหมู่ต่างๆ มากมาย GPU เป็นเพียงประเภทเดียว” Whitt กล่าว เขากล่าวว่าปัญหาค่อนข้างจะกระจายออกไปในฮาร์ดแวร์ต่างๆ ของ Frontier นอกจากนี้ ปัญหาที่เห็นได้ชัดก็เกิดขึ้นเมื่อคอมพิวเตอร์รันปริมาณงานที่มีความต้องการสูง รายงาน Whitt กล่าวว่าการรันการวัดประสิทธิภาพเป็นเวิร์มกระป๋องที่แตกต่างจากการรันแอปพลิเคชันทางวิทยาศาสตร์
ไม่ว่าระบบจะไม่สามารถทำงานได้อย่างสมบูรณ์สำหรับงานทางวิทยาศาสตร์จนถึงมกราคม 2023 ซึ่งหมายความว่า Whitt และ ทีมของเขายังมีเวลาแก้ปัญหาอยู่บ้าง แต่ดูเหมือนว่าทีมจะตัดงานออกไปแล้ว Whitt กล่าวว่าการไปวันเดียวโดยไม่มีความล้มเหลว “จะถือว่ายอดเยี่ยม” จากนั้นเขาก็กล่าวว่าเป้าหมายของเวลาทำงาน”ยังคงเป็นชั่วโมง”ซึ่งดูเหมือนจะยาวนานกว่าอัตราความล้มเหลวในปัจจุบัน แม้ว่าจะดูเหมือนสถานการณ์ที่ยากลำบาก แต่ Frontier มี 60 ล้านส่วน ดังนั้นจึงไม่น่าแปลกใจที่มี”อาการสะอึก”บ้างตาม วิตต์. แม้จะมีปัญหาเหล่านี้และซัพพลายเชนที่เกี่ยวข้องกับโควิด-19 ล่าช้า แต่ Whitt กล่าวว่าบริษัทยังคงเดินหน้าตามวันเปิดตัว ซึ่ง Frontier จะเริ่มงานจริงในการรันโปรแกรมผู้ใช้ ไม่ใช่แค่การวัดประสิทธิภาพ
อ่านแล้ว: