Huawei ha introdotto il suo sistema AI Cloudmatrix 384, un cluster su larga scala progettato per competere direttamente con l’architettura GB200 NVL72 di NVIDIA implementando un numero sostanziale dei suoi processori Ascend 910C. Annunciato poco dopo che il governo degli Stati Uniti ha effettivamente limitato le esportazioni del chip AI H20 di NVIDIA in Cina intorno al 15 aprile, la Cloudmatrix 384 rappresenta un’alternativa domestica che mira a riempire il vuoto.
Raggiunge le metriche delle prestazioni, su carta, superano l’attuale flagship gb200 nvl72 il sistema di system, ma la fondazione di sistema, ma la fondazione di sistema, ma la fondazione di sistema, ma la fondazione a asciuga è la fondazione a ascitazione. Un processore a doppio chiplet che fornisce 780 TFLOP utilizzando il formato numerico BF16 comune nell’IA. Il cluster completo di CloudMatrix 384 integra 384 di questi acceleratori e Secondo e per via emsagale
Questa cifra supera i circa 180 PFLOP attribuiti alla configurazione GB200 NVL72 da 72 GPU di NVIDIA. Il design di Huawei racchiude anche una memoria considerevolmente più, con 49,2 TB di HBM totale (memoria ad alta larghezza di banda, un tipo di memoria stacked che fornisce un rapido accesso ai dati per i processori) rispetto alla 13,8 TB di NVIDIA e 1229 TB/s di larghezza di banda HBM totale rispetto a 576 tb/s.
zessino tramite scadenza, non applicazione di HBM.
Questo vantaggio per le prestazioni, ottenuto distribuendo oltre cinque volte più acceleratori del sistema di confronto NVIDIA, ha un costo energetico ripido. The CloudMatrix 384’s total system power requirement is estimated at 559 kW, nearly four times the 145 kW consumed by the GB200 NVL72 configuration.
Calculations based on these figures indicate the Huawei system is 2.3 times less power-efficient per TFLOP of BF16 compute and 1.8 times less efficient per TB/s of memory bandwidth. L’efficienza per terabyte della capacità di HBM è più vicina, con il sistema di Huawei che utilizza circa 1,1 volte più potenza.
Questa disparità evidenzia un adattamento strategico alle circostanze della Cina-alle prese con accesso limitato alla produzione più avanzata e ad alta efficienza di potere efficiente in possesso e relativamente infrastrutturale di energia. I prezzi dell’elettricità in alcune parti della Cina sono notevolmente diminuiti, secondo quanto riferito livelli precedenti vicino a $ 91/mwh nel 2022 , rendendo il backbone e il backbone del potere più gravi. La chiave
per abilitare questo cluster su larga scala è l’architettura di networking di Cloudmatrix 384. Huawei ha optato per un approccio completamente ottico per la comunicazione tra inter-rack e intra-rack, collegando i processori 384 Ascend 910C in una mesh completamente-tutti. Ciò comporta la distribuzione di una massiccia ricetrasmettitore di Optics LINEABLABLE LINEABLABLE (LPO), ciascuno che opera a 800 Gbps.
tecnologia LPO, spesso discussa nei rapporti del settore come quelli da LightCounting , è vista come un’opzione potenzialmente inferiore rispetto a DSP tradizionali per i tradizionali dati di SHORTHF”Target=”_ Blank”> da Lightcounting Offrendo potenzialmente alcuni risparmi di potenza all’interno del tessuto di rete stesso, sebbene la gestione dell’integrità del segnale in una rete ottica così grande e complessa presenta le proprie sfide.
La risultante larghezza di banda interna aggregata supera 5,5 Pbps. La semianalisi calcola il sistema offre 2,1 volte la larghezza di banda di scala (all’interno del cluster a 384 nodi) e 5,3 volte la larghezza di banda di scala (per collegare più cluster) rispetto al bastone NVL72 GB200. href=”https://pytorchtoatoms.substack.com/p/why-dgx-h100-nvl256-never-shirped”Target=”_ blank”> dgx dgx h100 nvl256 piattaforma”ranger”, che presentava anche un grande design multi-rack olevato a costi per la produzione in tempo. > Navigare sul labirinto di sanzioni
L’esecuzione di questa strategia dipende dalla protezione dei componenti avanzati nonostante i rigorosi controlli di esportazione statunitensi. Mentre la SMIC cinese può produrre chip di classe 7 nm adatti ai chipli di calcolo del 910c, l’analisi suggerisce che i trasformatori distribuiti finora utilizzano principalmente chipli fabbricati da TSMC.
Huawei presumibilmente messo in sicurezza, a sanggi, come sanci. Huawei. Secondo quanto riferito, questa attività ci ha portato al controllo, con TSMC potenzialmente di fronte a un’ammenda significativa come riportato all’inizio di aprile.
L’accesso alla memoria HBM2E essenziale, secondo quanto riferito, si tratta di una soluzione simile, incanalando i componenti di Samsung attraverso la tecnologia di Distributor Coasia Electronic Pacchetti intermedi contenenti l’HBM, che vengono quindi spediti in Cina in cui la memoria viene presumibilmente estratta per l’uso nei moduli Ascend 910C finali di Huawei. Queste manovre sottolineano la sfida in corso di applicare i controlli delle esportazioni tecnologiche.
Una scommessa calcolata nella razza AI cinese
Il lancio di Cloudmatrix 384 è strategicamente cronometrato. L’azione statunitense che ferma le esportazioni di Nvidia H20 ha rimosso un concorrente chiave appositamente su misura per il mercato cinese in base alle precedenti restrizioni. L’H20, sebbene una parte a bassa performance rispetto alle GPU NVIDIA senza restrizioni e potenzialmente il precedente chip 910B di Huawei, era la principale offerta conforme di Nvidia per la Cina, e il divieto ha costretto la Società a passare non solo a un addebito di $ 5,5 miliardi per l’inventario correlato. simultaneously announced next-gen Ascend 920 chip.
The situation prompted Nvidia CEO Jensen Huang to Visita Pechino poco dopo il divieto, dove secondo quanto riferito ha dichiarato che Nvidia sperava di”continuare a collaborare con la Cina”.
L’analista Patrick Moorhead ha predetto il risultato consacrato:”Le aziende cinesi stanno solo passando a Huawei.”Ciò si allinea con obiettivi tecnologici cinesi più ampi, visti in iniziative come Fase-out di Telecom Chips