高通公司已與 Arm 伺服器處理器設計公司 AmpereComputing 建立合作夥伴關係,以增強人工智慧基礎設施能力。此次合作是在Ampere 年度戰略和路線圖更新期間公佈的,推出了一款配備8 個Qualcomm AI 100 Ultra 加速器和192 個Ampere CPU 核心的2U 伺服器,用於機器學習推理。 >Qualcomm Cloud AI 100 Ultra 提供專為生成式AI量身定制的性能和成本優化的AI 推理解決方案和大型語言模型(LLM)。它具有高達 576 MB 的片上 SRAM 和每卡 64 個 AI 核心,可滿足擴展經典和生成 AI 工作負載的獨特需求,包括電腦視覺、自然語言處理和基於 Transformer 的 LLM。 strong>高密度ARM AI 解決方案
Ampere 表示,該配置可在標準12.5kW 機架中支援多達56 個AI 加速器和1,344 個運算核心,無需昂貴的硬體液體冷卻系統。該公司還宣布其最新的伺服器處理器將配備256 個CPU 核心和多達12 個記憶體通道,並於明年過渡到台積電的3 奈米製程技術。.com/wp-content/uploads/2024/05/Qualcomm-Cloud-AI-100-Ultra-official-scaled.jpg”>
Ampere 和Oracle 已經證明大型語言模型(LLM) 可以在CPU 上運行,但有一定的限制。 CPU 通常更適合具有七到八十億個參數和較小批量的較小模型。高通的AI 100 加速器具有更高的記憶體頻寬,旨在處理更大的模型或更高的批次大小,從而更有效率地執行推理任務。
高通的 AI 100 Ultra 加速器雖然在資料中心 AI 晶片市場上不像 Nvidia 的 GPU 或英特爾的 Gaudi 那樣得到廣泛認可,但已經面世多年。去年秋天推出的 AI 100 Ultra 系列是一款纖薄的單槽 PCIe 卡,旨在進行 LLM 推理。與 AMD 和 Nvidia 的 600W 和 700W GPU 相比,其 150W 的功率需求並不高。高通聲稱單一AI 100 Ultra 可運行1000 億個參數模型,一對支援GPT-3 規模模型(1750 億個參數)。 TOP並配備128GB LPDDR4x內存,提供548GB/s的頻寬。記憶體頻寬對於將 AI 推理擴展到更大的批量大小至關重要。 Qualcomm 實施了推測性解碼和微縮放格式 (MX) 等軟體最佳化,以提高吞吐量和效率。推測解碼使用較小的模型來產生初始反應,然後由較大的模型檢查和修正。微縮放格式是一種量化形式,透過將模型權重壓縮到較低的精度來減少模型的記憶體佔用。