Microsoft Azure telah menerapkan kluster NVIDIA GB300 NVL72 berskala superkomputer pertama di dunia, sebuah sistem besar yang dibuat khusus untuk mitranya, OpenAI.

Kluster produksi ini mengintegrasikan lebih dari 4.600 GPU Blackwell Ultra terbaru dari NVIDIA, sehingga memberikan kekuatan luar biasa yang diperlukan untuk melatih dan menjalankan model AI generasi berikutnya.

The penerapannya, yang berlokasi di pusat data AI Microsoft, mewakili tonggak penting dalam aliansi strategis yang mendalam antara ketiga raksasa teknologi tersebut. Hal ini bertujuan untuk mempercepat pengembangan AI secara signifikan, memungkinkan OpenAI untuk membangun model yang lebih kuat dan kompleks dibandingkan sebelumnya, memperkuat kepemimpinan kolektif perusahaan dalam persaingan infrastruktur AI yang sangat kompetitif.

Raksasa Superkomputer Baru untuk OpenAI

Pengumuman ini merupakan puncak dari upaya rekayasa bersama selama beberapa tahun untuk membangun infrastruktur yang mampu menangani beban kerja AI terdepan.

Microsoft berencana menjadikan klaster awal ini sebagai yang pertama, dengan tujuan ambisius untuk menskalakan hingga ratusan ribu GPU Blackwell Ultra di seluruh pusat data globalnya, sebuah sinyal yang jelas strategi AI jangka panjangnya.

Baca juga: Mengapa Microsoft Bisa Menjadi Pemenang Utama Setelah Gelembung AI Meledak

Investasi besar-besaran ini akan memungkinkan pelatihan model dalam hitungan minggu, bukan bulan, dan mendukung pengembangan model dengan ratusan triliun parameter.

Menurut Nidhi Chappell, Corporate Vice President di Microsoft, “kolaborasi membantu memastikan pelanggan seperti OpenAI dapat menerapkan infrastruktur generasi berikutnya dengan skala dan kecepatan yang belum pernah terjadi sebelumnya.”

Microsoft dan Nvidia menyatakan bahwa mereka menetapkan tolok ukur industri baru untuk superkomputer AI pada skala produksi.

Di Balik Terpal: Di Dalam Cluster GB300 NVL72

Di jantung superkomputer adalah Sistem GB300 NVL72 skala rak NVIDIA berpendingin cairan, sebuah arsitektur yang diluncurkan di GTC pada bulan Maret 2025. Setiap unit mengintegrasikan 72 GPU Blackwell Ultra dan 36 CPU Grace ke dalam satu sistem kohesif.

Desain padat ini menghadirkan 1,44 exaflop komputasi FP4 dan menyediakan kumpulan memori cepat sebesar 37 TB per sistem. Pendinginan cair bawaan sangat penting untuk mengelola keluaran termal yang sangat besar dari konfigurasi kepadatan tinggi, sehingga memungkinkan kinerja puncak yang berkelanjutan.

Untuk menghubungkan lebih dari 4.600 GPU ke dalam satu superkomputer yang kohesif, cluster ini menggunakan arsitektur jaringan dua tingkat yang canggih. Dalam setiap rak, fabric NVLink generasi kelima NVIDIA menyediakan bandwidth menyeluruh sebesar 130 TB/dtk. Hal ini secara efektif mengubah 72 GPU menjadi akselerator tunggal dan masif dengan memori bersama pool.

Untuk komunikasi di seluruh cluster, Microsoft telah menerapkan Platform InfiniBand Quantum-X800 NVIDIA. Ini non-pemblokiran, fat-tree fabric memastikan komunikasi yang lancar dan berkecepatan tinggi dengan bandwidth 800 Gb/s per GPU, yang merupakan komponen penting untuk meminimalkan overhead saat melatih model ultra-besar di ribuan prosesor.

AI Arms Race: A Strategic Power Play

Meskipun penerapan Microsoft merupakan yang terbesar hingga saat ini, penerapan ini mengikuti langkah sebelumnya yang dilakukan oleh cloud khusus penyedia CoreWeave. Pada bulan Juli 2025, CoreWeave menjadi perusahaan pertama yang membuat platform GB300 tersedia secara komersial, sehingga mengamankan keunggulan utama sebagai penggerak pertama di pasar.

 Namun, pengumuman Microsoft dengan hati-hati menekankan sifat “produksi skala besar”dari clusternya, yang menandakan tingkat industrialisasi dan kapasitas baru yang membedakannya dari penerapan sebelumnya yang lebih kecil.

Langkah ini memvalidasi poros strategis Microsoft, pertama kali dilaporkan pada akhir tahun 2024, untuk memprioritaskan GB300 dibandingkan pendahulunya yang tertunda, GB200. Penerapan yang berhasil ini merupakan pernyataan dominasi dalam perlombaan senjata infrastruktur AI, sehingga memperkuat posisi perusahaan dalam menghadapi pesaingnya di bidang cloud.

Ian Buck dari NVIDIA, Wakil Presiden Hyperscale dan Komputasi Kinerja Tinggi, menyoroti pentingnya sistem ini untuk seluruh bidang, dengan menyatakan, “sistem rekayasa bersama ini menghasilkan klaster produksi GB300 berskala pertama di dunia, yang menyediakan mesin superkomputer yang dibutuhkan untuk OpenAI untuk melayani model multitriliun parameter.”

Ini menunjukkan peran platform sebagai mesin terdepan untuk penelitian dan pengembangan AI terdepan.

Melampaui Blackwell: Peta Jalan Akselerasi NVIDIA

Arsitektur Blackwell mewakili akselerasi AI tercanggih saat ini. CEO NVIDIA Jensen Huang telah menekankan dampak besarnya terhadap beban kerja penalaran AI, dengan mengatakan, “Blackwell Ultra NVL72 secara dramatis mempercepat beban kerja penalaran AI, memungkinkan respons yang hampir seketika bahkan pada model terbesar sekalipun.”

Namun, bahkan ketika platform andalannya diterapkan dalam skala besar, perusahaan sudah menantikan arsitektur besar berikutnya. lompatan.

Peta jalan agresif NVIDIA kini mengarah ke platform Vera Rubin, yang diperkirakan akan tersedia pada akhir tahun 2026. Arsitektur masa depan ini akan memperkenalkan lebih banyak spesialisasi, seperti ko-prosesor Rubin CPX yang baru-baru ini diumumkan, sebuah chip yang dibuat khusus yang dirancang untuk mempercepat “fase konteks” inferensi AI yang intensif komputasi.

Strategi sinyal “inferensi terpilah” ini memberi sinyal pasar yang bergerak melampaui GPU monolitik untuk keperluan umum. Dengan menciptakan perangkat keras khusus untuk bagian tertentu dari alur kerja AI, NVIDIA membangun persaingan yang lebih dalam. Kecepatan inovasi yang tiada henti ini menyoroti kematangan pasar perangkat keras AI.

Untuk saat ini, aliansi Microsoft-NVIDIA-OpenAI telah menetapkan standar baru untuk infrastruktur yang akan menentukan era kecerdasan buatan berikutnya.

Categories: IT Info