A SambaNova Systems, importante player em IA generativa focada em empresas, estabeleceu um novo benchmark de desempenho ao atingir uma taxa de transferência de 1.000 tokens por segundo usando o modelo de instrução de parâmetro Llama 3 8B. Essa conquista, validada pela empresa de testes independente Análise Artificial, supera o recorde anterior de 800 tokens por segundo detido pela Groq. O marco representa um avanço significativo nas capacidades dos sistemas generativos de IA.

Aplicações empresariais e implicações

O aumento na velocidade de processamento tem implicações de longo alcance para vários aplicativos corporativos. Tempos de resposta mais rápidos, melhor utilização de hardware e custos operacionais reduzidos estão entre os benefícios. Essa aceleração é particularmente vantajosa para aplicações que exigem baixa latência e alto rendimento, como agentes de IA, aplicações de IA para consumidores e interpretação de documentos de alto volume. George Cameron, cofundador da Análise Artificial, disse VentureBeat o ritmo crescente da corrida de chips de IA e destaca as opções de hardware em expansão disponíveis para desenvolvedores de IA. Sua empresa enfatiza o desempenho real desses sistemas, trazendo um novo entusiasmo para casos de uso dependentes de velocidade.

🚀 SambaNova arrasou a NVIDIA em um novo teste de velocidade realizado por Análise Artificial. 🚀

Samba-1 Turbo tem um desempenho incrível rápido a 1.000 t/s, um recorde mundial: https://t.co/PmDHWrFGCH.#AI # GenAI #EnterpriseAI #LLM #NLP #AIAreAll #GPUAlternative #EnterpriseScaleAI #AIChips #ChipRace pic.twitter.com/TMtUqyZWpy

— Sistemas SambaNova (@ SambaNovaAI) 29 de maio de 2024

Avanços tecnológicos por trás da conquista

O ponto central do sucesso do SambaNova é sua tecnologia Reconfigurable Dataflow Unit (RDU), que o diferencia dos aceleradores de IA tradicionais, como as GPUs da Nvidia. RDUs são chips de IA especializados projetados para apoiar as fases de treinamento e inferência do desenvolvimento de modelos de IA. Eles se destacam no atendimento às demandas de carga de trabalho empresarial, incluindo o ajuste fino do modelo. A pilha de software do SambaNova desempenha um papel crucial na otimização da RDU para ganhos de desempenho, permitindo a otimização iterativa da alocação de recursos em diferentes camadas da rede neural, levando a melhorias significativas na eficiência e na velocidade.

A introdução do Samba-1-Turbo, alimentado pelo chip SN40L, foi fundamental para alcançar este recorde mundial. O Samba-1-Turbo processa 1.000 tokens por segundo com precisão de 16 bits, executando o modelo avançado Llama-3 Instruct (8B). Ao contrário das GPUs tradicionais, que muitas vezes sofrem de capacidade limitada de memória no chip e transferências frequentes de dados, a RDU da SambaNova possui um enorme conjunto de memória distribuída no chip através de suas Unidades de Memória Padrão (PMUs). Essas PMUs são posicionadas próximas às unidades de computação, minimizando a movimentação de dados e aumentando a eficiência.

Otimizando a execução de redes neurais

GPUs tradicionais executam modelos de redes neurais em um moda kernel por kernel, que aumenta a latência e subutiliza unidades de computação. Em contraste, o compilador SambaFlow mapeia todo o modelo de rede neural como um gráfico de fluxo de dados na estrutura RDU, permitindo a execução de fluxo de dados em pipeline e aumentando o desempenho. Lidar com modelos grandes em GPUs geralmente requer paralelismo de modelos complexos, exigindo estruturas e códigos especializados. A arquitetura RDU do SambaNova automatiza dados e modela o paralelismo ao mapear múltiplas RDUs em um sistema, simplificando o processo e garantindo desempenho ideal.

O avançado Meta-Llama-3-8B-Instruct potencializa a velocidade e eficiência sem precedentes do Samba-1-Turbo. Além disso, o pacote SambaLingo do SambaNova suporta vários idiomas, incluindo árabe, búlgaro, húngaro, russo, sérvio (cirílico), esloveno, tailandês, turco e japonês, demonstrando a versatilidade e aplicabilidade global do sistema. A forte integração de hardware e software no Samba-1-Turbo é fundamental para o seu sucesso, tornando a IA generativa mais acessível e eficiente para as empresas.

Categories: IT Info