A Qualcomm firmou uma parceria com a Ampere Computing, designer de processador de servidor Arm, para reforçar os recursos de infraestrutura de IA. Esta colaboração foi revelada durante a atualização anual da estratégia e do roteiro da Ampere, introduzindo um servidor 2U equipado com oito aceleradores Qualcomm AI 100 Ultra e núcleos de CPU de 192 Ampere para inferência de aprendizado de máquina.
O Qualcomm Cloud AI 100 Ultra oferece uma solução de inferência de IA com desempenho e custo otimizado, personalizada para IA generativa e grandes modelos de linguagem (LLMs). Ele apresenta até 576 MB de SRAM on-die e 64 núcleos de IA por placa, atendendo às necessidades distintas de dimensionamento de cargas de trabalho de IA clássicas e generativas, incluindo visão computacional, processamento de linguagem natural e LLMs baseados em transformadores.
Soluções de IA ARM de alta densidade
A Ampere afirma que esta configuração pode suportar até 56 aceleradores de IA e 1.344 núcleos de computação em um rack padrão de 12,5 kW, eliminando a necessidade de equipamentos caros sistemas de refrigeração líquida. A empresa também anunciou que seu mais recente processador de servidor contará com 256 núcleos de CPU e até 12 canais de memória, fazendo a transição para a tecnologia de processo de 3nm da TSMC no próximo ano.
Ampere e Oracle demonstraram que grandes modelos de linguagem (LLMs) podem ser executados em CPUs, embora com certas limitações. As CPUs geralmente são mais adequadas para modelos menores, com sete a oito bilhões de parâmetros e tamanhos de lote menores. Os aceleradores AI 100 da Qualcomm, com maior largura de banda de memória, são projetados para lidar com modelos maiores ou tamanhos de lote maiores, tornando-os mais eficientes para tarefas de inferência.
Aceleradores AI 100 Ultra da Qualcomm
Os aceleradores AI 100 Ultra da Qualcomm, embora não sejam tão amplamente reconhecidos no mercado de chips de IA para datacenters como as GPUs da Nvidia ou Gaudi da Intel, estão disponíveis há vários anos. A série AI 100 Ultra, lançada no outono passado, é uma placa PCIe fina e de slot único destinada à inferência LLM. Com 150W, seus requisitos de energia são modestos em comparação com as GPUs de 600W e 700W da AMD e Nvidia. A Qualcomm afirma que um único AI 100 Ultra pode executar 100 bilhões de modelos de parâmetros, com um par suportando modelos em escala GPT-3 (175 bilhões de parâmetros).
A placa AI 100 Ultra de 64 núcleos oferece 870 TOPs com precisão INT8 e está equipado com 128 GB de memória LPDDR4x, oferecendo 548 GB/s de largura de banda. A largura de banda da memória é essencial para dimensionar a inferência de IA para lotes maiores. A Qualcomm implementou otimizações de software, como decodificação especulativa e formatos de microescalonamento (MX), para aumentar o rendimento e a eficiência. A decodificação especulativa utiliza um modelo menor para gerar respostas iniciais, que são então verificadas e corrigidas por um modelo maior. Os formatos de microescalonamento, uma forma de quantização, reduzem o consumo de memória dos modelos, compactando os pesos dos modelos para diminuir a precisão.