Nakipagtulungan ang Qualcomm sa taga-disenyo ng processor ng Arm server na Ampere Computing upang palakasin ang mga kakayahan sa imprastraktura ng AI. Ang pakikipagtulungang ito ay inihayag sa panahon ng taunang diskarte at pag-update ng roadmap ng Ampere, na nagpapakilala ng isang 2U server na nilagyan ng walong Qualcomm AI 100 Ultra accelerators at 192 Ampere CPU core para sa machine-learning inference.

Ang Nag-aalok ang Qualcomm Cloud AI 100 Ultra ng performance at cost-optimized AI inference solution na iniakma para sa Generative AI at malalaking modelo ng wika (LLMs). Nagtatampok ito ng hanggang 576 MB ng on-die SRAM at 64 AI cores bawat card, na tumutugon sa mga natatanging pangangailangan ng pag-scale ng parehong classic at generative AI workloads, kabilang ang computer vision, natural na pagpoproseso ng wika, at mga LLM na nakabatay sa transformer.

High-Density ARM AI Solutions 

Sabi ni Ampere na kayang suportahan ng configuration na ito ang hanggang 56 AI accelerators at 1,344 computation core sa karaniwang 12.5kW rack, na inaalis ang pangangailangan para sa mahal mga sistema ng paglamig ng likido. Inanunsyo din ng kumpanya na ang pinakabagong server processor nito ay magtatampok ng 256 CPU core at hanggang 12 memory channel, na lilipat sa 3nm process technology ng TSMC sa susunod na taon.

Ipinakita ng Ampere at Oracle na ang mga large language models (LLM) ay maaaring tumakbo sa mga CPU, kahit na may ilang partikular na limitasyon. Ang mga CPU ay karaniwang mas angkop para sa mas maliliit na modelo na may pito hanggang walong bilyong mga parameter at mas maliliit na laki ng batch. Ang AI 100 accelerators ng Qualcomm, na may mas mataas na memory bandwidth, ay idinisenyo upang pangasiwaan ang mas malalaking modelo o mas mataas na laki ng batch, na ginagawang mas mahusay ang mga ito para sa mga gawain sa paghihinuha.

Qualcomm’s AI 100 Ultra Accelerators

Ang mga AI 100 Ultra accelerator ng Qualcomm, bagama’t hindi gaanong kinikilala sa merkado ng AI chip market ng datacenter gaya ng mga GPU ng Nvidia o Gaudi ng Intel, ay naging available sa loob ng ilang taon. Ang AI 100 Ultra series, na ipinakilala noong nakaraang taglagas, ay isang slim, single-slot PCIe card na naglalayong LLM inferencing. Sa 150W, ang mga kinakailangan sa kuryente nito ay katamtaman kumpara sa 600W at 700W GPU mula sa AMD at Nvidia. Inaangkin ng Qualcomm na ang isang AI 100 Ultra ay maaaring magpatakbo ng 100 bilyong modelo ng parameter, na may pares na sumusuporta sa mga modelo ng GPT-3 scale (175 bilyong parameter).

Ang 64-core AI 100 Ultra card ay naghahatid ng 870 TOP sa INT8 precision at nilagyan ng 128GB ng LPDDR4x memory, na nag-aalok ng 548GB/s ng bandwidth. Ang memory bandwidth ay mahalaga para sa pag-scale ng AI inferencing sa mas malalaking laki ng batch. Ipinatupad ng Qualcomm ang mga pag-optimize ng software tulad ng speculative decoding at micro-scaling formats (MX) upang mapahusay ang throughput at kahusayan. Gumagamit ang speculative decoding ng mas maliit na modelo upang makabuo ng mga paunang tugon, na pagkatapos ay susuriin at itatama ng mas malaking modelo. Ang mga micro-scaling na format, isang paraan ng quantization, ay binabawasan ang memory footprint ng mga modelo sa pamamagitan ng pag-compress ng mga timbang ng modelo sa mas mababang katumpakan.

Categories: IT Info