Untuk melatih model AI dengan triliunan parameter, Microsoft mengonfirmasi pada 13 November bahwa mereka sedang membangun “pabrik super AI” yang mencakup benua. Proyek ini menghubungkan pusat data khusus ke dalam satu superkomputer virtual, sebuah strategi yang dirancang untuk mengatasi keterbatasan listrik dan lahan lokal.

Node pertama dalam jaringan berkecepatan tinggi ini kini online, menghubungkan fasilitas “Fairwater”baru milik perusahaan di Wisconsin dan Atlanta, Georgia.

Dengan mendistribusikan beban kerja AI dalam jumlah besar sepanjang ratusan mil, Microsoft bertujuan untuk menciptakan infrastruktur dasar yang diperlukan untuk gelombang pengembangan kecerdasan buatan berikutnya, yang secara efektif memperlakukan banyak negara bagian sebagai satu sumber daya komputasi.

Sebuah “Pabrik Super AI”yang Mencakup Berbagai Negara

Proyek ambisius Microsoft mendefinisikan ulang konsep kampus pusat data. Daripada memusatkan semua komputasinya di satu wilayah geografis, perusahaan ini menciptakan jaringan terdistribusi yang berfungsi sebagai satu mesin yang kohesif.

Pendekatan ini secara langsung mengatasi hambatan utama dalam meningkatkan infrastruktur AI: mengamankan lahan yang cukup dan, yang lebih penting, megawatt listrik di satu tempat.

Koneksi pertama, yang menghubungkan Wisconsin dan Atlanta dalam jarak 700 mil, kini sudah beroperasi, membuktikan kelayakan konsep tersebut. Langkah ini adalah bagian inti dari perlombaan senjata AI yang intens, yang mengutamakan pengendalian komputasi.

Microsoft Atlanta Datacen (Gambar: Microsoft)

Strategi ini memungkinkan Microsoft menempatkan pusat data di lokasi dengan kondisi yang lebih menguntungkan—seperti lahan yang lebih murah, iklim yang lebih sejuk, atau akses terhadap energi terbarukan—tanpa mengorbankan kinerja satu cluster monolitik.

“Ini tentang membangun jaringan terdistribusi yang dapat bertindak sebagai superkomputer virtual untuk mengatasi tantangan terbesar dunia dengan cara yang Anda bisa. tidak dapat dilakukan dalam satu fasilitas saja,”ujar Alistair Speirs, general manager di Microsoft yang berfokus pada infrastruktur Azure, dalam pengumuman perusahaan.

Microsoft Pusat Data Wisconsin melalui Microsoft (Gambar: Microsoft)

Skala dari visi ini sangat besar, karena perusahaan yakin bahwa model AI di masa depan akan memerlukan kekuatan komputasi yang jauh melampaui apa yang dapat disediakan oleh situs mana pun. “Jumlah infrastruktur yang dibutuhkan saat ini untuk melatih model-model ini bukan hanya satu pusat data, bukan dua, tapi kelipatannya,” jelas CTO Microsoft Azure Mark Russinovich.

Pembangunan internal ini mewakili salah satu cabang dari strategi ganda, melengkapi kesepakatan outsourcing besar-besaran seperti kontrak baru-baru ini senilai $9,7 miliar dengan IREN untuk mengamankan kapasitas GPU eksternal.

Arsitektur Fairwater: Dibuat dengan Tujuan untuk Model Triliun Parameter

Di dalam setiap fasilitas Fairwater, Microsoft telah merancang arsitektur baru yang dioptimalkan secara eksklusif untuk pelatihan AI skala besar. Ini bukanlah pusat data tradisional yang dirancang untuk menjalankan jutaan aplikasi pelanggan yang terpisah.

Sebaliknya, pusat data ini dibuat khusus untuk menjalankan satu pekerjaan besar dan kompleks di semua perangkat keras yang tersedia. Bangunannya sendiri memiliki desain dua lantai, pilihan yang meningkatkan kepadatan GPU dan mengurangi jarak fisik yang harus dilalui sinyal, sehingga meminimalkan latensi.

Integrasi vertikal perangkat keras dan fasilitas ini sejalan dengan upaya Microsoft yang lebih luas untuk mengontrol seluruh tumpukan AI, termasuk langkah terbarunya untuk melisensikan desain chip khusus OpenAI.

Kepadatan ini menghasilkan panas yang sangat besar, yang diatasi Microsoft dengan sistem pendingin cair langsung ke chip yang canggih. Desain loop tertutup menggunakan “hampir nol air”dalam pengoperasiannya, yang merupakan peningkatan efisiensi yang signifikan.

Di lokasinya di Atlanta, Microsoft akan menerapkan sistem rak GB200 NVL72 Nvidia yang canggih, dengan setiap rak mampu menggambar lebih dari 140 kilowatt dan menampung 72 GPU.

Seluruh tumpukan perangkat keras ini dirancang untuk kinerja maksimal, memastikan tidak ada komponen yang menjadi hambatan. “Memimpin dalam AI bukan hanya tentang menambahkan lebih banyak GPU – ini tentang membangun infrastruktur yang membuat mereka bekerja sama sebagai satu sistem,” kata Scott Guthrie, wakil presiden eksekutif Microsoft untuk Cloud + AI.

Menggabungkan Komputer Seukuran Benua dengan Jaringan Berkecepatan Tinggi

Menghubungkan pusat data yang berjarak ratusan mil menimbulkan tantangan latensi yang signifikan, namun ini adalah kunci untuk mencapai skala baru ini. Microsoft telah membangun “AI Wide Area Network”(AI WAN) khusus untuk menjembatani jarak ini.

Tulang punggung pribadi ini dibangun di atas 120.000 mil serat optik khusus baru yang menakjubkan kabel, memastikan data pelatihan AI tidak bersaing dengan lalu lintas internet umum.

Tujuannya adalah membuat situs yang terpisah secara geografis berperilaku seolah-olah berada dalam satu gedung, sehingga GPU yang mahal tetap digunakan.

Hal ini memerlukan perangkat keras jaringan khusus dengan bandwidth tinggi yang mampu mempertahankan kinerja dalam jarak jauh.

Meskipun Microsoft belum secara resmi menyebutkan nama vendornya, industri ini telah menghasilkan beberapa solusi canggih untuk masalah ini. Jericho4 ASIC dari Broadcom, misalnya, dirancang untuk datacenter-to-datacenter interconnect (DCI).

“Jika Anda menjalankan kluster pelatihan dan ingin berkembang melebihi kapasitas satu gedung, kami adalah satu-satunya solusi yang valid di sana,”kata Amir Sheffer dari Broadcom.

Demikian pula, Cisco telah mengembangkan router 8223 miliknya untuk menghubungkan pusat data AI hingga jarak 1.000 kilometer, dengan Microsoft ditunjuk sebagai evaluator awal teknologi ini.

Laporan baru menambahkan bahwa jaringan internal menggunakan backend Ethernet dua tingkat yang menjalankan sistem operasi SONiC (Perangkat Lunak untuk Jaringan Terbuka di Cloud) milik Microsoft, dengan konektivitas 800 Gbps per tautan.

Mengingat kemitraan mendalam Microsoft dengan Nvidia, platform Spectrum-XGS raksasa GPU juga merupakan pesaing kuat untuk jaringan yang menghubungkan situs-situs ini. Pendekatan perangkat keras multi-vendor ini sangat penting untuk menghindari lock-in, sebuah strategi yang dijalankan Microsoft di seluruh jajarannya, termasuk upaya untuk membuat perangkat lunak CUDA Nvidia dapat berfungsi pada chip AMD pesaing.

Dengan menguasai pembangunan fisik dan jaringan kompleks yang menyatukan semuanya, Microsoft memposisikan dirinya untuk mengontrol lapisan dasar untuk era pengembangan AI berikutnya.

Categories: IT Info