AI-startföretaget Perplexity släppte ett system med öppen källkod den 4 november som gör att världens största AI-modeller kan köras effektivt på Amazons molninfrastruktur för första gången.
Detaljerad i en ny forskningsrapport ger systemet ett kraftfullt, bärbart alternativ till lösningar som kräver specialiserad NVIDIA-nätverkshårdvara.
En ny teknisk bana för implementering av K2, det erbjuder en ny teknisk väg för K2. på AWS.
Förslaget kommer när Silicon Valley-företaget navigerar i eskalerande juridiska strider med stora plattformar, inklusive Reddit och Amazon själva, över dess skarpa kontraster mellan dess kontroversiella uppgifter och öppna källor för dess kontroversiella data och öppna källor. metoder.
Under the Hood: A Portable’TransferEngine’to Unify AI Networking
Perplexity AI har öppnat en ny uppsättning högpresterande Mixture-of-Experts (MoE) kommunikationskärnor, vilket gör koden tillgänglig i ett GitHub-förråd som heter’pplx-garden’.
Releasen åtföljs av en detaljerad forskningsartikel, nu tillskriven av Vladimir Hundor, Liplexity, Vladimir, Liplexity, Vladimir och Liplexity anställda. Lequn Chen, som skisserar systemets arkitektur.
MoE-modeller kräver gles, dynamisk, punkt-till-punkt-kommunikation för att dirigera data mellan olika”expert”-undermodeller, ett mönster som traditionellt hanterar
-kommunikation
dåligt. innovation är ett bärbart bibliotek som heter’TransferEngine’, byggt för att hantera dataöverföringar med hög genomströmning och låg latens med hjälp av Remote Direct Memory Access (RDMA).
Istället för att förlita sig på NVIDIAs egenutvecklade teknik för GPU: kommunicera direkt med ett nätverkskort men skapar hårdvarulåsning, valde Perplexity en mer flexibel värdproxydesign.
I den här modellen hanterar en dedikerad CPU-tråd nätverksoperationer på uppdrag av GPU:n. Även om detta introducerar en liten overhead, gör det hela systemet hårdvaruagnostiskt.
Genom att abstrahera bort skillnaderna mellan konkurrerande hårdvara, tillåter Perplexitys TransferEngine utvecklare att skriva bärbar, högpresterande kod. Dess nyckelinsikt var att bygga en abstraktion som inte är beroende av den strikta dataleveransen i ordning som garanteras av NVIDIAs ConnectX-kort.
Dess kompatibilitet sträcker sig nu till den naturligt oordnade leveransen av AWS:s Elastic Fabric Adapter (EFA), som förenar de två dominerande nätverksstamnäten.
riktmärken visar att de nya kärnorna uppnår toppmoderna prestanda.
På ett 64-GPU-kluster med NVIDIA ConnectX-7-hårdvara, registrerade systemet en kombinerad avkodningsfördröjning på bara 692 mikrosekunder, vilket överträffade den tidigare branschledaren för Play 3, Playh>. Cloud Independence
Att släppa den här tekniken åtgärdar direkt en stor flaskhals i implementeringen av massiva AI-modeller. För molnkunder representerar möjligheten att köra dessa modeller utan att vara låsta till en enda hårdvaruleverantör ett viktigt steg mot att minska kostnaderna och öka flexibiliteten. Frontier-modeller för stora modeller som Moonshot-i-modeller för K2-modeller, som t.ex. slutledning av en nod, som kräver komplexa inställningar för flera noder som är mycket känsliga för nätverksprestanda. Hittills har uppnåendet av MoE-prestanda i toppskiktet i stort sett krävt en full NVIDIA-stack, parning av GPU:er med dess ConnectX-nätverkskort. Perplexitys arbete gör Amazons egenutvecklade alternativ, high-perform . Tidigare försök att använda EFA för den här typen av arbetsbelastning med generiska bibliotek som NVSHMEM var för långsamma för att vara praktiska för produktionsslutledning. Genombrottet skulle kunna omforma ekonomin med storskalig AI-distribution. Det ger företag ett kraftfullt nytt alternativ för att köra banbrytande modeller med öppen källkod på AWS utan att vara bundna till ett specifikt hårdvaruekosystem. Ett sådant drag positionerar Perplexity inte bara som ett konsumentinriktat produktföretag, utan som en nyckelbidragsgivare till den grundläggande infrastrukturen för AI-industrin, vilket potentiellt försvagar NVIDIA:s höga grepp på hårdvaran på marknaden. A
Medan företaget kämpar för sina bidrag med öppen källkod, fortsätter det att möta en störtflod av juridiska utmaningar från innehållsägare.
Timingen för den här tekniska releasen är särskilt anmärkningsvärd, eftersom den anlände samma dag som Winbuzzer rapporterade att dess agentur från Amazonase-och Perplex-desscen hade utfärdat ett stopp för Amazonas-och en AI-agent. gör inköp på sin webbplats.
I ett uttalande sa en talesperson för Amazon,”Agentiska tredjepartsapplikationer som Perplexity’s Comet har samma skyldigheter, och vi har upprepade gånger begärt att Perplexity tar bort Amazon från Comet-upplevelsen.”
Denna åtgärd följer på en blåsig stämningsansökan som Reddit lämnade in av Reddit i slutet av oktober, som på ett olagligt sätt anklagade Perplexity. dess innehåll från Googles sökresultat.
Reddits juridiska chef, Ben Lee, sa:”Perplexity är en villig kund till åtminstone en av dessa skrapor, som väljer att köpa stulen data snarare än att ingå ett lagligt avtal med Reddit själv.”
Perplexity har konsekvent förnekat brott i sina juridiska strider, och fortsätter att närma sig Dwyer:s chef för kommunikation. och ansvarsfulla eftersom vi tillhandahåller sakliga svar med korrekt AI, och vi kommer inte att tolerera hot mot öppenhet och allmänhetens intresse.”
Ett konfliktmönster som detta skapar en komplex offentlig bild för företaget. Det bygger samtidigt verktyg som stärker communityn med öppen källkod samtidigt som de anklagas för att utnyttja den öppna webbens data utan tillstånd.
Företaget verkar följa en dubbel strategi: att bidra till det allmänna med ena handen samtidigt som man tar från det med den andra.
Försöker att motverka denna berättelse. korrekt attribution för visuellt innehåll.
En sådan affär tyder på en vilja att engagera sig i licensierade partnerskap, men den står i skarp kontrast till företagets mer kontradiktoriska relationer på andra håll.
En dubbel identitet, delvis öppen källkodsförkämpe, delvis juridisk stridande, definierar Perplexitys höga roll.