Forskere fra Rice University og Startup XMAD.AI har detaljert float for dynamisk lengde (DFLOAT11), en teknikk som oppnår omtrent 30% tapsfri komprimering for store språkmodellvekter lagret i den vanlige .

presentert i en arxiv papir denne måneden Reduserer metoden modellminnekravene mens du sikrer output er bit-for-bit identisk for de originale modellen. Denne tilnærmingen senker maskinvarebrangen betydelig for å betjene de største modellene; Teamet demonstrerte å kjøre Metas 810GB Llama-3.1-405B-modell tapfritt på en enkelt server med åtte 80 GB NVIDIA GPUS, en konfigurasjon er open source .

Imidlertid introduserer dette uoverensstemmelsen en ytelse av ytelsen. Sammenlignet med å kjøre en ukomprimert BF16-modell på maskinvare med tilstrekkelig minne, legger DFLOAT11 til latens.

Forfatter Tianyi Zhang

De signifikante hastighetene som er rapportert i papiret (1,9x-38x høyere gjennomstrømning) relatert til å sammenligne den uloven som er mellom å sammenligne, for å sammenligne Paper (1,9x. CPU-systemminnet-et scenario nødvendiggjort av utilstrekkelig VRAM. Zhang oppsummerte:”Hvis maskinvarebegrensninger (passende større modeller, lengre sekvenser eller større partier) ikke er den primære bekymringen, er det ikke mye motivasjon til å bruke DF11.”Faktorer som potensiell innvirkning på strømforbruket eller systemstabiliteten under langvarig dekompresjonsarbeidsmengde vil også kreve evaluering i utplasseringer i den virkelige verden.

maskinvare tilgjengelighet og lengre kontekster

Til tross for latens-avveining i ubegrensede scenarier. Oppgaven viser at det muliggjør Llama-3.3-70B på en enkelt 141 GB H200 GPU og QWEN2.5-32B på en 48 GB A6000, begge umulig med standard BF16. Dette gjør potensielt avanserte modeller brukbare for organisasjoner med mindre GPU-budsjetter.

Kritisk sett kan VRAM lagret ved å komprimere modellvektene brukes til KV-cachen, som ofte begrenser maksimal kontekstlengde. Ved å gi mer plass til denne hurtigbufferen, tillater DFLOAT11 modeller å behandle 5.3x til 13.17x lengre sekvenser For å lette adopsjonen har teamet gjort pre-compressed dfloat11-modeller tilgjengelig på klemmer ansikt argumentet for tapfri nøyaktighet

Eksempler på ytelsesdråper Observerte AUTICUS, Evaluations for åkvantiserende for å bruke denne ugrappen. Kompleksiteter som noen sluttbrukere foretrekker å unngå, siden det skaper ukontrollerte variabler som må empirisk stressetestes for hvert distribusjonsscenario.”For applikasjoner som sensitiv dokumentbehandling der pålitelighet er nøkkelen, kan garantien for bit-for-bit identisk produksjon som tilbys av en tapsfri tilnærming være essensielt.

Dette fokuset på effektiv GPU-inferens skiller DFLOAT11 fra andre tapsfrie teknikker. Zipnn Bruker for eksempel CPU-basert dekompresjon hovedsakelig for å akselerere modelllasting og redusere lagringsavtrykk. Tidligere GPU-accelererte tapsløse forsøk, som Neuzip Bruk av ANS-koding via NVIDIAs NVCOMP, ble redusert med å få en reduksjonsbasert koding.

p> p> p> p> p>/p> Mye høyere dekompresjonsgjennomstrømning sammenlignet med nvcomps ANS-implementering i papirets benchmarks. Den takler også en annen effektivitetsvinkel enn metoder som Sakana Ais NAMM, som optimaliserer KV-cachen for lange kontekster i stedet for å komprimere statiske vekter. DFLOAT11 tilbyr en spesifikk løsning for å montere store modeller til begrenset GPU-minne uten å kompromittere output-troskap.

Categories: IT Info