Huawei telah memperkenalkan sistem AI Cloudmatrix 384, sebuah cluster skala besar yang dirancang untuk bersaing langsung dengan arsitektur GB200 NVL72 terkemuka NVIDIA dengan menggunakan sejumlah besar prosesor ASCEND 910C. Diumumkan tak lama setelah pemerintah AS secara efektif membatasi ekspor chip H20 AI NVIDIA ke Cina sekitar 15 April, CloudMatrix 384 mewakili alternatif domestik yang bertujuan untuk mengisi kekosongan.
Ini mencapai metrik kinerja yang, di atas kertas, melampaui flagship NVIDIA saat ini href=”https://www.nvidia.com/en-us/data-center/gb200-nvl72/”target=”_ blank”> GB200 NVL72 Sistem ISED dalam beberapa bidang, tetapi melakukan hal itu melalui skala silicon. 910C, prosesor dual-chiplet yang memberikan 780 TFLOP menggunakan format numerik BF16 yang umum di AI. Cluster CloudMatrix 384 penuh mengintegrasikan 384 dari akselerator ini, dan
Angka ini melebihi sekitar 180 PFLOPS yang dikaitkan dengan pengaturan NVIDIA 72-GPU GB200 NVL72. Desain Huawei juga mengemas lebih banyak memori, dengan 49,2 TB total HBM (memori bandwidth tinggi, sejenis memori bertumpuk yang menyediakan akses data cepat untuk prosesor) dibandingkan dengan NVIDIA 13,8 TB, dan 1229 TB/S dari Total HBM Bandwidth Versus 576 TB/S. Keuntungan kinerja ini, dicapai dengan menggunakan lebih dari lima kali lebih banyak akselerator daripada sistem perbandingan NVIDIA, datang dengan biaya energi yang curam. Total kebutuhan daya sistem CloudMatrix 384 diperkirakan 559 kW, hampir empat kali lipat dari 145 kW yang dikonsumsi oleh Konfigurasi GB200 NVL72. Perhitungan berdasarkan angka-angka ini menunjukkan pita huawei lebih sedikit per efisien power per tflop dari BF16 compute dan 1,8 kali lipat pandan per tflop bf16. Efisiensi per terabyte kapasitas HBM lebih dekat, dengan sistem Huawei menggunakan sekitar 1,1 kali daya lebih banyak. Perbedaan ini menyoroti adaptasi strategis terhadap keadaan Cina-bergulat dengan akses terbatas ke infrastruktur energi yang paling canggih, hemat daya sambil memiliki infrastruktur energi ample dan relatif terjangkau. Harga listrik di beberapa bagian Cina telah berkurang, dilaporkan Level sebelumnya mendekati $ 91/mWh pada 2022 , membuat sistem haus power lebih dari kuat secara ekonomis daripada yang mungkin lebih dari mereka. Kunci untuk mengaktifkan cluster skala besar ini adalah arsitektur jaringan CloudMatrix 384. Huawei telah memilih pendekatan semua optik untuk komunikasi antar-rack dan intra-rack, yang menghubungkan 384 Prosesor ASCEND 910C dalam mesh semua-ke-semua. Ini melibatkan penyebaran transceiver 6.912 linear pluggable optics (LPO) yang sangat besar, masing-masing beroperasi pada 800 Gbps. Teknologi LPO, sering dibahas dalam laporan industri seperti
Agregat bandwidth agregat yang dihasilkan melampaui 5,5 pbps. Semianalisis menghitung sistem ini menawarkan 2,1 kali bandwidth skala-up (dalam cluster 384-node) dan 5,3 kali bandwidth skala-out (untuk menghubungkan beberapa cluster) dibandingkan dengan baseline GB200 NVL72.
Rack Non-Rack yang tidak ada, dengan 12 Rack Compute Racks dan 4 Racks yang tidak disusun, dengan 12 Rake Komputasi dan 4 Rake KECAILE DEAUSE, dengan 12 Rack Compute Racks dan 4 Didicated Racks, dengan 12 Rack Compute Racks dan 4 Compute Racks dan 4 Compute Racks dan 4 Racks yang Didedikasikan, dengan 12 Compute Racks dan 4 Compute Racks dan 4 Dedicated Racks. href=”https://pytorchtoatoms.substack.com/p/why-dgx-h100-nvl256-never-dikirimkan”target=”_ blank”> DGX H100 NVL256 Platform”Ranger”, yang juga menampilkan compus-coude yang sangat dihubungkan secara optik. > menavigasi sanksi labirin
Melaksanakan strategi ini tergantung pada mengamankan komponen canggih meskipun ada kontrol ekspor AS yang ketat. Sementara SMIC China dapat menghasilkan chip kelas 7nm yang cocok untuk chiplet komputasi ASCEND 910C, analisis menunjukkan prosesor yang digunakan sejauh ini terutama menggunakan chiplet yang dibuat oleh TSMC.
Huawei yang diduga mengamankan wafer terbatas ini-cukup berpotensi untuk satu jutaan proses lakur 910. Sanksi terhadap Huawei. Kegiatan ini dilaporkan mengarah pada pengawasan AS, dengan TSMC berpotensi menghadapi denda yang signifikan seperti yang dilaporkan pada awal April.
Mengakses memori HBM2E penting yang dilaporkan melibatkan solusi yang sama, menyalurkan komponen Samsung melalui perancang-perancang Teknologi, yang merupakan perusahaan yang sangat meningkat, yang sangat meningkat, hal-hal yang sangat meningkat setelah kontrol ekspor HBM. Paket-paket perantara yang mengandung HBM, yang kemudian dikirim ke Cina di mana memori konon diekstraksi untuk digunakan dalam modul naik 910C terakhir Huawei. Manuver ini menggarisbawahi tantangan berkelanjutan untuk menegakkan kontrol ekspor teknologi.
Sebuah taruhan yang dihitung dalam lomba AI China
Peluncuran CloudMatrix 384 diatur secara strategis. Tindakan AS menghentikan ekspor NVIDIA H20 menghapus pesaing utama yang secara khusus dirancang untuk pasar Cina di bawah pembatasan sebelumnya. H20, meskipun bagian yang berkinerja lebih rendah dibandingkan dengan GPU NVIDIA yang tidak terbatas dan chip 910B sebelumnya yang berpotensi Huawei, adalah penawaran utama NVIDIA untuk Cina, dan larangan itu memaksa perusahaan untuk mengambil biaya pasar yang tidak ada yang tidak ada yang tidak ada yang mengharukan. secara bersamaan mengumumkan chip Ascend 920 Next-Gen.
Situasinya mendorong CEO NVIDIA Jensen Huang ke Kunjungi Beijing Tak lama setelah larangan itu, di mana ia dilaporkan menyatakan Nvidia berharap”untuk terus bekerja sama dengan Cina.”
Analis Patrick Moorhead memperkirakan hasilnya dengan blak-blakan:”Perusahaan Cina hanya akan beralih ke Huawei.”This aligns with broader Chinese technology goals, seen in initiatives like the phase-out of foreign telecom chips and the substantial “Big Fund”supporting domestic semiconductor perkembangan. Huawei’s CloudMatrix 384 menunjukkan jalur menuju kinerja sistem AI yang kompetitif sekarang, menerima penggunaan daya yang lebih tinggi sambil menavigasi rantai pasokan global yang kompleks di bawah kendala geopolitik.