クアルコムは、AI インフラストラクチャ機能を強化するために、Arm サーバー プロセッサ設計者である Ampere Computing とパートナーシップを締結しました。このコラボレーションは、Ampere の年次戦略とロードマップの更新中に発表され、機械学習推論用に 8 つの Qualcomm AI 100 Ultra アクセラレータと 192 Ampere CPU コアを搭載した 2U サーバーが導入されました。
Qualcomm Cloud AI 100 Ultra は、Generative AI に合わせたパフォーマンスとコストが最適化された AI 推論ソリューションを提供します。および大規模言語モデル (LLM)。カードあたり最大 576 MB のオンダイ SRAM と 64 個の AI コアを備えており、コンピューター ビジョン、自然言語処理、トランスフォーマー ベースの LLM など、クラシック AI ワークロードと生成 AI ワークロードの両方をスケーリングする特有のニーズに応えます。
高密度 ARM AI ソリューション
Ampere によれば、この構成では標準の 12.5kW ラックで最大 56 個の AI アクセラレータと 1,344 個の計算コアをサポートでき、高価なプロセッサが不要になります液体冷却システム。同社はまた、最新のサーバー プロセッサが 256 個の CPU コアと最大 12 個のメモリ チャネルを備え、来年 TSMC の 3nm プロセス テクノロジーに移行することも発表しました。
Ampere と Oracle は、一定の制限はあるものの、大規模言語モデル (LLM) が CPU 上で実行できることを実証しました。 CPU は一般に、70 ~ 80 億のパラメーターと小さなバッチ サイズを持つ小規模なモデルにより適しています。 Qualcomm の AI 100 アクセラレータは、より高いメモリ帯域幅を備えており、より大きなモデルやより大きなバッチ サイズを処理できるように設計されており、推論タスクの効率が向上します。
Qualcomm の AI 100 Ultra アクセラレータ
Qualcomm の AI 100 Ultra アクセラレータは、Nvidia の GPU や Intel の Gaudi ほどデータセンター AI チップ市場では広く認識されていませんが、数年前から販売されています。昨年の秋に導入された AI 100 Ultra シリーズは、LLM 推論を目的としたスリムなシングルスロット PCIe カードです。電力要件は 150 W で、AMD や Nvidia の 600 W および 700 W GPU に比べて控えめです。クアルコムは、1 つの AI 100 Ultra で 1,000 億のパラメータ モデルを実行でき、ペアで GPT-3 スケール モデル (1,750 億のパラメータ) をサポートできると主張しています。
64 コア AI 100 Ultra カードは、INT8 精度で 870 TOP を実現します。 128GBのLPDDR4xメモリを搭載し、548GB/秒の帯域幅を提供します。 AI 推論をより大きなバッチ サイズに拡張するには、メモリ帯域幅が不可欠です。クアルコムは、スループットと効率を向上させるために、投機的デコードやマイクロスケーリング フォーマット (MX) などのソフトウェアの最適化を実装しました。投機的デコードでは、より小さなモデルを使用して初期応答が生成され、その後、より大きなモデルによってチェックおよび修正されます。量子化の一種であるマイクロスケーリング形式は、モデルの重みを圧縮して精度を下げることにより、モデルのメモリ使用量を削減します。