La startup AI Perplexity ha rilasciato il 4 novembre un sistema open source che consente per la prima volta ai modelli di intelligenza artificiale più grandi del mondo di funzionare in modo efficiente sull’infrastruttura cloud di Amazon.
Descritto in un nuovo documento di ricerca, il sistema fornisce un’alternativa potente e portatile alle soluzioni che richiedono hardware di rete NVIDIA specializzato.
Una svolta tecnica, offre un nuovo percorso per la distribuzione di modelli di grandi dimensioni come Kimi K2 su AWS.
La mossa arriva mentre l’azienda della Silicon Valley si trova ad affrontare crescenti battaglie legali con le principali piattaforme, tra cui Reddit e la stessa Amazon, sulle sue controverse pratiche di raccolta dati e agenti di intelligenza artificiale, creando un netto contrasto tra i suoi contributi open source e i suoi metodi di business.
Under the Hood: A Portable”TransferEngine”per Unify AI Networking
Perplexity AI ha reso open source un nuovo set di kernel di comunicazione Mixture-of-Experts (MoE) ad alte prestazioni, rendendo il codice disponibile in un repository GitHub denominato”pplx-garden”.
Il rilascio è accompagnato da un documento di ricerca dettagliato, ora attribuito ai dipendenti di Perplexity Nandor Licker, Kevin Hu, Vladimir Zaytsev e Lequn Chen, che delinea l’architettura del sistema.
I modelli MoE richiedono una comunicazione sparsa, dinamica e punto a punto per instradare i dati tra diversi sottomodelli”esperti”, un modello tradizionale le librerie di comunicazione collettive si gestiscono in modo inadeguato.
Al centro dell’innovazione c’è una libreria portatile chiamata”TransferEngine”, creata per gestire trasferimenti di dati ad alto throughput e a bassa latenza utilizzando Remote Direct Memory Access (RDMA).
Invece di affidarsi alla tecnologia GPUDirect Async proprietaria di NVIDIA, che consente a una GPU di comunicare direttamente con una scheda di rete ma crea hardware lock-in, Perplexity ha optato per un design proxy host più flessibile.
In questo modello, un thread della CPU dedicato gestisce le operazioni di rete per conto della GPU. Sebbene ciò introduca un piccolo sovraccarico, rende l’intero sistema indipendente dall’hardware.
Astraendo le differenze tra l’hardware della concorrenza, TransferEngine di Perplexity consente agli sviluppatori di scrivere codice portabile e ad alte prestazioni. La sua intuizione chiave è stata quella di creare un’astrazione che non dipenda dalla rigorosa consegna dei dati in ordine garantita dalle schede ConnectX di NVIDIA.
La sua compatibilità ora si estende alla consegna intrinsecamente non ordinata dell’Elastic Fabric Adapter (EFA) di AWS, unificando le due dorsali di rete dominanti sotto un’unica interfaccia.
I risultati dell’azienda sono significativi, poiché i benchmark mostrano che i nuovi kernel raggiungono prestazioni all’avanguardia.
Su un piano Cluster da 64 GPU con hardware NVIDIA ConnectX-7, il sistema ha registrato una latenza di decodifica combinata di soli 692 microsecondi, superando il precedente leader del settore, DeepEP.
Un gioco strategico per l’indipendenza dal cloud
Il rilascio di questa tecnologia risolve direttamente un grave collo di bottiglia nell’implementazione di modelli di intelligenza artificiale di massa.
Per i clienti cloud, la possibilità di eseguire questi modelli senza essere vincolati a un unico fornitore di hardware rappresenta un passo significativo verso la riduzione dei costi e l’aumento della flessibilità.
I modelli di frontiera come il modello Kimi K2 da un trilione di parametri di Moonshot AI sono troppo grandi per l’inferenza a nodo singolo, richiedendo complesse configurazioni multi-nodo altamente sensibili alle prestazioni di rete.
Fino ad ora, il raggiungimento di prestazioni MoE di alto livello ha richiesto in gran parte uno stack NVIDIA completo, abbinando le GPU ai suoi Schede di rete ConnectX.
Il lavoro di Perplexity rende per la prima volta l’EFA proprietario di Amazon un’alternativa praticabile e ad alte prestazioni.
I precedenti tentativi di utilizzare EFA per questo tipo di carico di lavoro con librerie generiche come NVSHMEM erano troppo lenti per essere pratici per l’inferenza di produzione.
La svolta potrebbe rimodellare l’economia dell’implementazione dell’intelligenza artificiale su larga scala. Offre alle aziende una nuova potente opzione per eseguire modelli open source all’avanguardia su AWS senza essere legate a uno specifico ecosistema hardware.
Questa mossa posiziona Perplexity non solo come azienda di prodotti rivolta al consumatore, ma come un contributore chiave all’infrastruttura fondamentale del settore dell’intelligenza artificiale, indebolendo potenzialmente la presa ferrea di NVIDIA sul mercato dell’hardware AI ad alte prestazioni.
Una doppia identità: pioniere dell’open source o raschiatore di dati?
Sebbene l’azienda sostenga i propri contributi open source, continua a dover affrontare una raffica di sfide legali da parte dei proprietari di contenuti.
La tempistica di questo rilascio tecnico è particolarmente notevole, essendo arrivata lo stesso giorno in cui Winbuzzer ha riferito che Amazon aveva emesso una lettera di cessazione e desistenza chiedendo a Perplexity di impedire al suo agente Comet AI di effettuare acquisti sul suo sito web.
In una dichiarazione, un portavoce di Amazon ha affermato:”Applicazioni agenti di terze parti come Perplexity Comet ha gli stessi obblighi e abbiamo ripetutamente richiesto a Perplexity di rimuovere Amazon dall’esperienza Comet.”
Questa azione fa seguito a una violenta causa intentata da Reddit a fine ottobre, che accusava Perplexity di uno schema”su scala industriale”per rimuovere illegalmente i suoi contenuti dai risultati di ricerca di Google.
Il capo legale di Reddit, Ben Lee, ha dichiarato:”Perplexity è un cliente consenziente di almeno uno di questi scraper, che sceglie piuttosto di acquistare dati rubati piuttosto che stipulare un accordo legale con Reddit stesso.”
Perplexity ha costantemente negato ogni illecito nelle sue battaglie legali, con il suo capo della comunicazione, Jesse Dwyer, che ha affermato:”Il nostro approccio rimane basato su principi e responsabilità poiché forniamo risposte concrete con un’intelligenza artificiale accurata e non tollereremo minacce contro la trasparenza e l’interesse pubblico.”
Un modello di conflitto come questo crea un’immagine pubblica complessa per l’azienda. Sta allo stesso tempo costruendo strumenti che danno potere alla comunità open source mentre viene accusata di sfruttare i dati del web aperto senza autorizzazione.
L’azienda sembra perseguire una duplice strategia: contribuire ai beni comuni con una mano e trarne profitto con l’altra.
Cercando di contrastare questa narrativa, Perplexity ha recentemente siglato un accordo di licenza pluriennale con Getty Images, impegnandosi a garantire la corretta attribuzione dei contenuti visivi.
Tale accordo suggerisce la volontà di impegnarsi. nelle partnership autorizzate, ma è in netto contrasto con le relazioni più contraddittorie dell’azienda altrove.
Una doppia identità, in parte campione dell’open source, in parte combattente legale, definisce il ruolo ad alto rischio di Perplexity.