A startup de IA Perplexity lançou um sistema de código aberto em 4 de novembro que permite que os maiores modelos de IA do mundo sejam executados com eficiência na infraestrutura de nuvem da Amazon pela primeira vez.

Detalhado em um novo artigo de pesquisa, o sistema fornece uma alternativa poderosa e portátil para soluções que exigem hardware de rede NVIDIA especializado.

Um avanço técnico, ele oferece um novo caminho para a implantação de modelos massivos como o Kimi K2 na AWS.

A mudança ocorre no momento em que a empresa do Vale do Silício enfrenta crescentes batalhas legais com grandes plataformas, incluindo Reddit e a própria Amazon, sobre suas controversas práticas de coleta de dados e agentes de IA, criando um nítido contraste entre suas contribuições de código aberto e seus métodos de negócios.

Sob o capô: um portátil ‘TransferEngine’ para Unify AI Networking

A Perplexity AI abriu o código-fonte de um novo conjunto de kernels de comunicação Mixture-of-Experts (MoE) de alto desempenho, tornando o código disponível em um repositório GitHub chamado’pplx-garden’.

O lançamento é acompanhado por um documento de pesquisa detalhado, agora atribuído aos funcionários da Perplexity Nandor Licker, Kevin Hu, Vladimir Zaytsev e Lequn Chen, que descreve a arquitetura do sistema.

Os modelos MoE exigem comunicação esparsa, dinâmica e ponto a ponto para rotear dados entre diferentes submodelos “especialistas”, um padrão que as bibliotecas tradicionais de comunicação coletiva não lidam bem.

No centro da inovação está uma biblioteca portátil chamada ‘TransferEngine’, construída para gerenciar transferências de dados de alto rendimento e baixa latência usando Acesso remoto direto à memória (RDMA).

Em vez de confiar na tecnologia GPUDirect Async, que permite que uma GPU se comunique diretamente com uma placa de rede, mas cria hardware lock-in, a Perplexity optou por um design de proxy de host mais flexível.

Neste modelo, um thread de CPU dedicado gerencia as operações de rede em nome da GPU. Embora isso introduza uma pequena sobrecarga, torna todo o sistema independente de hardware.

Ao abstrair as diferenças entre hardwares concorrentes, o TransferEngine da Perplexity permite que os desenvolvedores escrevam código portátil e de alto desempenho. Seu principal insight foi construir uma abstração que não dependesse da entrega estrita de dados em ordem garantida pelas placas ConnectX da NVIDIA.

Sua compatibilidade agora se estende à entrega inerentemente não ordenada do Elastic Fabric Adapter (EFA) da AWS, unificando os dois backbones de rede dominantes em uma única interface.

Os resultados da empresa são significativos, pois os benchmarks mostram que os novos kernels alcançam desempenho de última geração.

Em um Cluster de 64 GPUs com hardware NVIDIA ConnectX-7, o sistema registrou uma latência de decodificação combinada de apenas 692 microssegundos, superando o desempenho do líder anterior do setor, DeepEP.

Um jogo estratégico para a independência da nuvem

O lançamento dessa tecnologia resolve diretamente um grande gargalo na implantação de IA massiva modelos.

Para clientes de nuvem, a capacidade de executar esses modelos sem ficar preso a um único fornecedor de hardware representa um passo significativo para reduzir custos e aumentar a flexibilidade.

Modelos de fronteira, como o modelo Kimi K2 de um trilhão de parâmetros da Moonshot AI, são grandes demais para inferência de nó único, exigindo configurações complexas de vários nós que são altamente sensíveis ao desempenho da rede.

Até agora, alcançar o desempenho de MoE de nível superior exigia em grande parte uma pilha NVIDIA completa. emparelhando GPUs com suas placas de rede ConnectX.

O trabalho da Perplexity torna o EFA proprietário da Amazon uma alternativa viável e de alto desempenho pela primeira vez.

As tentativas anteriores de usar EFA para esse tipo de carga de trabalho com bibliotecas genéricas como NVSHMEM foram lentas demais para serem práticas para inferência de produção.

A inovação pode remodelar a economia da implantação de IA em grande escala. Ele oferece às empresas uma nova e poderosa opção para executar modelos de código aberto de ponta na AWS sem estarem vinculadas a um ecossistema de hardware específico.

Essa mudança posiciona a Perplexity não apenas como uma empresa de produtos voltados para o consumidor, mas como um contribuidor-chave para a infraestrutura fundamental da indústria de IA, potencialmente enfraquecendo o controle de ferro da NVIDIA no mercado de hardware de IA de alto desempenho.

Uma identidade dupla: pioneiro de código aberto ou raspador de dados?

Embora a empresa defenda suas contribuições de código aberto, ela continua enfrentando uma enxurrada de desafios legais por parte dos proprietários de conteúdo.

O momento deste lançamento técnico é particularmente notável, chegando no mesmo dia em que o Winbuzzer informou que a Amazon havia emitido uma carta de cessação e desistência exigindo que a Perplexity impedisse seu agente Comet AI de fazer compras em seu site.

Em um comunicado, um porta-voz da Amazon disse: “Aplicativos de terceiros agentes, como o da Perplexity. A Comet tem as mesmas obrigações e solicitamos repetidamente que a Perplexity remova a Amazon da experiência Comet.”

Essa ação segue uma ação judicial violenta movida pelo Reddit no final de outubro, que acusou a Perplexity de um esquema de”escala industrial”para extrair ilegalmente seu conteúdo dos resultados de pesquisa do Google.

O chefe jurídico da Reddit, Ben Lee, declarou: “A Perplexity é um cliente voluntário de pelo menos um desses raspadores, optando por comprar dados roubados em vez de entrar em um acordo acordo legal com o próprio Reddit.”

A Perplexity negou consistentemente irregularidades em suas batalhas legais, com seu chefe de comunicação, Jesse Dwyer, afirmando:”Nossa abordagem permanece baseada em princípios e responsável, pois fornecemos respostas factuais com IA precisa e não toleraremos ameaças contra a abertura e o interesse público.”

Um padrão de conflito como esse cria uma imagem pública complexa para a empresa. Ela está simultaneamente construindo ferramentas que capacitam a comunidade de código aberto enquanto é acusada de explorar os dados da web aberta sem permissão.

A empresa parece estar buscando uma estratégia dupla: contribuir para o bem comum com uma mão e tirar dele com a outra.

Buscando contrariar essa narrativa, a Perplexity recentemente fechou um acordo de licenciamento plurianual com a Getty Images, comprometendo-se com a atribuição adequada de conteúdo visual.

Tal acordo sugere uma disposição de se envolver em conteúdo visual licenciado.

Tal acordo sugere uma disposição de se envolver em conteúdo visual licenciado. parcerias, mas contrasta fortemente com os relacionamentos mais adversários da empresa em outros lugares.

Uma dupla identidade, parte defensora do código aberto, parte combatente legal, define o papel de alto risco da Perplexity.

Categories: IT Info