Microsoft Azure ได้ปรับใช้คลัสเตอร์ NVIDIA GB300 NVL72 ขนาดซูเปอร์คอมพิวเตอร์ตัวแรกของโลก ซึ่งเป็นระบบขนาดใหญ่ที่สร้างขึ้นโดยเฉพาะสำหรับพันธมิตรอย่าง OpenAI

คลัสเตอร์การผลิตได้รวม Blackwell Ultra GPU ล่าสุดของ NVIDIA มากกว่า 4,600 ตัว ซึ่งให้พลังมหาศาลที่จำเป็นในการฝึกอบรมและเรียกใช้โมเดล AI รุ่นต่อไป

การปรับใช้ซึ่งตั้งอยู่ในศูนย์ข้อมูล AI ของ Microsoft ถือเป็นก้าวสำคัญในการเป็นพันธมิตรเชิงกลยุทธ์เชิงลึกระหว่างยักษ์ใหญ่ด้านเทคโนโลยีทั้งสามราย โดยมีเป้าหมายเพื่อเร่งการพัฒนา AI อย่างรวดเร็ว ส่งผลให้ OpenAI สามารถสร้างโมเดลที่ทรงพลังและซับซ้อนมากขึ้นกว่าเดิม เสริมความแข็งแกร่งในการเป็นผู้นำโดยรวมของบริษัทในการแข่งขันโครงสร้างพื้นฐาน AI ที่มีการแข่งขันดุเดือด

ซูเปอร์คอมพิวเตอร์รูปแบบใหม่สำหรับ OpenAI

การประกาศดังกล่าวถือเป็นจุดสุดยอดของความพยายามทางวิศวกรรมร่วมที่มีระยะเวลาหลายปีในการสร้างโครงสร้างพื้นฐานที่สามารถรองรับปริมาณงาน AI ที่อยู่ระดับแนวหน้าได้

Microsoft วางแผนสำหรับคลัสเตอร์เริ่มแรกนี้ให้เป็นคลัสเตอร์แรกจากหลายๆ คลัสเตอร์ โดยมีเป้าหมายอันทะเยอทะยานในการ ปรับขนาดเป็น Blackwell Ultra GPU นับแสนทั่วทั้งศูนย์ข้อมูลทั่วโลก สัญญาณที่ชัดเจนของกลยุทธ์ AI ในระยะยาว

อ่านเพิ่มเติม: เหตุใด Microsoft อาจเป็นผู้ชนะขั้นสูงสุดเมื่อฟองสบู่ AI ระเบิด

การลงทุนมหาศาลนี้จะช่วยให้สามารถฝึกอบรมโมเดลได้ภายในไม่กี่สัปดาห์แทนที่จะใช้เวลาเป็นเดือน และสนับสนุนการพัฒนาแบบจำลองที่มีพารามิเตอร์หลายร้อยล้านล้านรายการ

ตามที่ Nidhi Chappell รองประธานองค์กรของ Microsoft กล่าวว่า “การทำงานร่วมกันช่วยให้แน่ใจว่าลูกค้าอย่าง OpenAI สามารถปรับใช้โครงสร้างพื้นฐานรุ่นถัดไปในระดับและความเร็วที่ไม่เคยมีมาก่อน”

Microsoft และ Nvidia กล่าวว่าสิ่งนี้ได้กำหนดมาตรฐานอุตสาหกรรมใหม่สำหรับซูเปอร์คอมพิวเตอร์ AI ในระดับการผลิต

เบื้องหลัง: ภายในคลัสเตอร์ GB300 NVL72

หัวใจสำคัญของซูเปอร์คอมพิวเตอร์ คือระบบ GB300 NVL72 ระดับแร็คที่ระบายความร้อนด้วยของเหลวของ NVIDIA ซึ่งเป็นสถาปัตยกรรมที่เปิดตัวที่ GTC ในเดือนมีนาคม 2025 แต่ละยูนิตรวม GPU Blackwell Ultra 72 ตัวและ CPU Grace 36 ตัวไว้ในระบบเดียว

การออกแบบที่หนาแน่นนี้ มอบ 1.44 exaflops ของการประมวลผล FP4 และมอบหน่วยความจำที่รวดเร็วรวม 37TB ต่อระบบ การระบายความร้อนด้วยของเหลวในตัวถือเป็นสิ่งสำคัญในการจัดการเอาท์พุตความร้อนอันมหาศาลของการกำหนดค่าที่มีความหนาแน่นสูง ช่วยให้ได้รับประสิทธิภาพสูงสุดอย่างยั่งยืน

ในการเชื่อมต่อ GPU มากกว่า 4,600 ตัวเข้ากับซูเปอร์คอมพิวเตอร์ตัวเดียว คลัสเตอร์จะใช้สถาปัตยกรรมเครือข่ายสองชั้นที่ซับซ้อน ภายในแต่ละแร็ค ผ้า NVLink รุ่นที่ห้าของ NVIDIA ให้แบนด์วิดท์ทั้งหมดถึงทั้งหมด 130 TB/s วิธีนี้จะเปลี่ยน GPU 72 ตัวให้กลายเป็น ตัวเร่งความเร็วขนาดใหญ่ตัวเดียวพร้อมหน่วยความจำที่ใช้ร่วมกันได้อย่างมีประสิทธิภาพ พูล

สำหรับการสื่อสารทั่วทั้งคลัสเตอร์ Microsoft ได้ปรับใช้ แพลตฟอร์ม Quantum-X800 InfiniBand ของ NVIDIA แพลตฟอร์ม Fat-tree ที่ไม่มีการปิดกั้นนี้ Fabric รับประกันการสื่อสารความเร็วสูงที่ราบรื่นด้วยแบนด์วิดท์ 800 Gb/s ต่อ GPU ซึ่งเป็นองค์ประกอบสำคัญในการลดค่าใช้จ่ายเมื่อฝึกฝนโมเดลขนาดใหญ่พิเศษบนโปรเซสเซอร์หลายพันตัว

การแข่งขันทางอาวุธของ AI: การเล่นอย่างมีกลยุทธ์

แม้ว่าการใช้งานของ Microsoft จะใหญ่ที่สุดในปัจจุบัน แต่ก็เป็นไปตามความเคลื่อนไหวก่อนหน้านี้โดย CoreWeave ผู้ให้บริการคลาวด์เฉพาะทาง ในเดือนกรกฎาคม ปี 2025 CoreWeave กลายเป็นบริษัทแรกที่วางจำหน่ายแพลตฟอร์ม GB300 ในเชิงพาณิชย์ โดยได้รับความได้เปรียบจากผู้เสนอญัตติรายแรกในตลาด

 อย่างไรก็ตาม การประกาศของ Microsoft เน้นย้ำอย่างรอบคอบถึงลักษณะ”การผลิตตามขนาด”ของคลัสเตอร์ โดยส่งสัญญาณถึงระดับใหม่ของการพัฒนาทางอุตสาหกรรมและขีดความสามารถที่แตกต่างจากการใช้งานก่อนหน้านี้ที่มีขนาดเล็กลง

การเคลื่อนไหวนี้เป็นการตรวจสอบจุดสำคัญเชิงกลยุทธ์ของ Microsoft รายงานครั้งแรกในช่วงปลายปี 2024 เพื่อจัดลำดับความสำคัญของ GB300 มากกว่า GB200 รุ่นก่อนที่ถูกล่าช้า การติดตั้งใช้งานที่ประสบความสำเร็จเป็นคำแถลงถึงการครอบงำในการแข่งขันด้านอาวุธโครงสร้างพื้นฐาน AI ซึ่งตอกย้ำจุดยืนของบริษัทในการต่อสู้กับคู่แข่งบนคลาวด์

Ian Buck รองประธานฝ่าย Hyperscale และคอมพิวเตอร์ประสิทธิภาพสูงจาก NVIDIA เน้นย้ำถึงความสำคัญของระบบสำหรับทั้งสาขา โดยกล่าวว่า”ระบบที่ได้รับการออกแบบทางวิศวกรรมร่วมกันนี้มอบคลัสเตอร์การผลิตในระดับ GB300 แห่งแรกของโลก โดยให้ เอ็นจิ้นซูเปอร์คอมพิวเตอร์ที่จำเป็นสำหรับ OpenAI เพื่อรองรับโมเดลหลายล้านล้านพารามิเตอร์”

แสดงให้เห็นบทบาทของแพลตฟอร์มในฐานะกลไกชั้นนำสำหรับการวิจัยและพัฒนา AI ระดับแนวหน้า

เหนือกว่า Blackwell: โร้ดแมปการเร่งความเร็วของ NVIDIA

สถาปัตยกรรม Blackwell แสดงถึงความล้ำหน้าในปัจจุบันในการเร่งความเร็ว AI Jensen Huang ซีอีโอของ NVIDIA เน้นย้ำถึงผลกระทบอย่างลึกซึ้งต่อปริมาณงานการให้เหตุผลของ AI โดยสังเกตว่า “Blackwell Ultra NVL72 เร่งปริมาณงานการให้เหตุผลของ AI ได้อย่างมาก ทำให้สามารถตอบสนองได้แทบจะในทันทีแม้ในรุ่นที่ใหญ่ที่สุด”

ถึงแม้แพลตฟอร์มหลักจะถูกใช้งานในวงกว้าง บริษัทก็ตั้งตารอคอยการก้าวกระโดดทางสถาปัตยกรรมครั้งสำคัญครั้งต่อไปแล้ว

แผนงานเชิงรุกของ NVIDIA ชี้ไปที่แพลตฟอร์ม Vera Rubin ซึ่งคาดว่าจะพร้อมใช้งานในช่วงปลายปี 2569 สถาปัตยกรรมในอนาคตนี้จะนำเสนอความเชี่ยวชาญพิเศษที่มากยิ่งขึ้น เช่น ตัวประมวลผลร่วม Rubin CPX ที่เพิ่งประกาศเมื่อเร็ว ๆ นี้ ซึ่งเป็นชิปที่สร้างขึ้นโดยเฉพาะซึ่งออกแบบมาเพื่อเร่ง”ขั้นตอนบริบท”ที่เน้นการประมวลผลของการอนุมาน AI

กลยุทธ์”การอนุมานแบบแยกส่วน”นี้ส่งสัญญาณว่าตลาดก้าวไปไกลกว่านั้น GPU แบบเสาหินสำหรับใช้งานทั่วไป ด้วยการสร้างฮาร์ดแวร์พิเศษสำหรับส่วนเฉพาะของเวิร์กโฟลว์ AI NVIDIA กำลังสร้างคูน้ำที่มีการแข่งขันลึกยิ่งขึ้น นวัตกรรมที่ก้าวไปอย่างไม่หยุดยั้งนี้เน้นย้ำถึงการเติบโตของตลาดฮาร์ดแวร์ AI

สำหรับตอนนี้ พันธมิตร Microsoft-NVIDIA-OpenAI ได้กำหนดมาตรฐานใหม่สำหรับโครงสร้างพื้นฐานที่จะกำหนดยุคถัดไปของปัญญาประดิษฐ์

Categories: IT Info