O novo software TensorRT-LLM de código aberto da NVIDIA, com lançamento previsto para as próximas semanas, demonstrou um aumento significativo de desempenho. Em testes usando o modelo GPT-J 6B, o sistema atualizado apresentou uma melhoria de desempenho oito vezes maior em relação ao A100, um salto significativo em relação à vantagem anterior de quatro vezes. Além disso, quando avaliados no Llama2 LLM da Meta, os H100s aprimorados pelo TensorRT-LLM ultrapassaram os A100s por um fator de 4,6, uma melhoria acentuada em relação aos 2,6 vezes anteriores à atualização.

Em uma tentativa de melhorar o desempenho do Large Language Models (LLMs), a NVIDIA lançou recentemente o TensorRT-LLM, uma biblioteca de código aberto projetada para melhorar o desempenho de Large Language Models (LLMs) no hardware da NVIDIA.

TensorRT-LLM é uma biblioteca de código aberto que opera em GPUs NVIDIA Tensor Core. Sua principal função é oferecer aos desenvolvedores um ambiente para experimentar e construir novos grandes modelos de linguagem, que formam a base de plataformas generativas de IA como o ChatGPT. O software se concentra na inferência, que refina o processo de treinamento de uma IA, ajudando o sistema a entender como vincular conceitos e fazer previsões.

Acabou de ser anunciado – NVIDIA TensorRT-LLM turbina modelo de linguagem grande #inferência em GPUs NVIDIA H100 Tensor Core. #LLM https://t.co/jMX0EDxkXJ

— Desenvolvedor de IA da NVIDIA (@NVIDIAAIDev) 8 de setembro de 2023

Técnicas inovadoras por trás do impulso

O desafio dos grandes modelos de linguagem (LLMs) reside em sua versatilidade, tornando difícil agrupar solicitações e executá-las simultaneamente. A NVIDIA e seus parceiros enfrentaram esse desafio integrando o TensorRT-LLM com um método de agendamento avançado denominado “batch em andamento”. Essa abordagem inovadora permite que a geração de texto seja segmentada em diversas subtarefas.

Essencialmente, o sistema pode processar novos lotes de solicitações variadas simultaneamente, em vez de esperar a conclusão de um único lote. O TensorRT-LLM abrange um compilador de aprendizado profundo TensorRT, kernels otimizados, etapas de pré e pós-processamento e facilita a comunicação entre várias GPUs e nós. Isso resulta em desempenho incomparável nas GPUs da NVIDIA, permitindo a experimentação de novos modelos de linguagem grande, personalização rápida e desempenho máximo.

Excelência de benchmarking e perspectivas futuras

GH200 Grace da NVIDIA Hopper Superchip, que combina uma GPU Hopper com uma CPU Grace, apresentou resultados impressionantes nos últimos benchmarks da indústria MLPerf. O superchip, junto com as GPUs H100, liderou em todos os testes de data center da MLPerf, incluindo visão computacional, reconhecimento de fala, medicina imagens e as tarefas mais exigentes dos sistemas de inferência e recomendação LLM. Além disso, a NVIDIA anunciou uma próxima atualização de software que irá melhorar ainda mais as capacidades de inferência de IA do seu Superchip GH200 Grace Hopper.

A IA é uma área importante de crescimento para a Nvidia e a empresa já está vendo as recompensas de tomar um papel de liderança no mercado. Análises recentes revelaram que a Nvidia está garantindo um lucro de quase 1.000% em cada GPU H100 Tensor Core que vende. Informações financeiras de Raymond James, uma renomada empresa de serviços financeiros, compartilhadas no Barron’s, estimaram o custo de produção de uma dessas GPUs em cerca de US$ 3.320. Em total contraste, o preço de venda dessas GPUs da Nvidia varia entre US$ 25.000 e US$ 30.000, dependendo do volume do pedido.

Categories: IT Info