Nvidia retira software hack do AI Hat e dobra o desempenho da GPU H100 gratuitamente

O novo software TensorRT-LLM de código aberto da NVIDIA, com lançamento previsto para as próximas semanas, demonstrou um aumento significativo de desempenho. Em testes usando o modelo GPT-J 6B, o sistema atualizado apresentou uma melhoria de desempenho oito vezes maior em relação ao A100, um salto significativo em relação à vantagem anterior de quatro vezes. Além disso, quando avaliados no Llama2 LLM da Meta, os H100s aprimorados pelo TensorRT-LLM ultrapassaram os A100s por um fator de 4,6, uma melhoria acentuada em relação aos 2,6 vezes anteriores à atualização.

Em uma tentativa de melhorar o desempenho do Large Language Models (LLMs), a NVIDIA lançou recentemente o TensorRT-LLM, uma biblioteca de código aberto projetada para melhorar o desempenho de Large Language Models (LLMs) no hardware da NVIDIA.

TensorRT-LLM é uma biblioteca de código aberto que opera em GPUs NVIDIA Tensor Core. Sua principal função é oferecer aos desenvolvedores um ambiente para experimentar e construir novos grandes modelos de linguagem, que formam a base de plataformas generativas de IA como o ChatGPT. O software se concentra na inferência, que refina o processo de treinamento de uma IA, ajudando o sistema a entender como vincular conceitos e fazer previsões.

Acabou de ser anunciado – NVIDIA TensorRT-LLM turbina modelo de linguagem grande #inferência em GPUs NVIDIA H100 Tensor Core. #LLM https://t.co/jMX0EDxkXJ

— Desenvolvedor de IA da NVIDIA (@NVIDIAAIDev) 8 de setembro de 2023

Técnicas inovadoras por trás do impulso

O desafio dos grandes modelos de linguagem (LLMs) reside em sua versatilidade, tornando difícil agrupar solicitações e executá-las simultaneamente. A NVIDIA e seus parceiros enfrentaram esse desafio integrando o TensorRT-LLM com um método de agendamento avançado denominado “batch em andamento”. Essa abordagem inovadora permite que a geração de texto seja segmentada em diversas subtarefas.

Essencialmente, o sistema pode processar novos lotes de solicitações variadas simultaneamente, em vez de esperar a conclusão de um único lote. O TensorRT-LLM abrange um compilador de aprendizado profundo TensorRT, kernels otimizados, etapas de pré e pós-processamento e facilita a comunicação entre várias GPUs e nós. Isso resulta em desempenho incomparável nas GPUs da NVIDIA, permitindo a experimentação de novos modelos de linguagem grande, personalização rápida e desempenho máximo.

Excelência de benchmarking e perspectivas futuras

GH200 Grace da NVIDIA Hopper Superchip, que combina uma GPU Hopper com uma CPU Grace, apresentou resultados impressionantes nos últimos benchmarks da indústria MLPerf. O superchip, junto com as GPUs H100, liderou em todos os testes de data center da MLPerf, incluindo visão computacional, reconhecimento de fala, medicina imagens e as tarefas mais exigentes dos sistemas de inferência e recomendação LLM. Além disso, a NVIDIA anunciou uma próxima atualização de software que irá melhorar ainda mais as capacidades de inferência de IA do seu Superchip GH200 Grace Hopper.

A IA é uma área importante de crescimento para a Nvidia e a empresa já está vendo as recompensas de tomar um papel de liderança no mercado. Análises recentes revelaram que a Nvidia está garantindo um lucro de quase 1.000% em cada GPU H100 Tensor Core que vende. Informações financeiras de Raymond James, uma renomada empresa de serviços financeiros, compartilhadas no Barron’s, estimaram o custo de produção de uma dessas GPUs em cerca de US$ 3.320. Em total contraste, o preço de venda dessas GPUs da Nvidia varia entre US$ 25.000 e US$ 30.000, dependendo do volume do pedido.

Nvidia retira software hack do AI Hat e dobra o desempenho da GPU H100 gratuitamente

Published by All Things Windows on September 12, 2023

Técnicas inovadoras por trás do impulso

Excelência de benchmarking e perspectivas futuras

IT Info

8 maneiras de trocar de usuário no Windows 10

IT Info

Copiar e Colar não funciona no Windows? Vamos consertar isso

IT Info

Falha de segurança no servidor Azure da Microsoft deixa os dados do Bing desprotegidos

Nvidia retira software hack do AI Hat e dobra o desempenho da GPU H100 gratuitamente

Published by All Things Windows on September 12, 2023

Técnicas inovadoras por trás do impulso

Excelência de benchmarking e perspectivas futuras

Related Posts

IT Info

8 maneiras de trocar de usuário no Windows 10

IT Info

Copiar e Colar não funciona no Windows? Vamos consertar isso

IT Info

Falha de segurança no servidor Azure da Microsoft deixa os dados do Bing desprotegidos