Forskere fra Rice University og Startup XMAD.AI har detaljert float for dynamisk lengde (DFLOAT11), en teknikk som oppnår omtrent 30% tapsfri komprimering for store språkmodellvekter lagret i den vanlige .
presentert i en arxiv papir denne måneden Reduserer metoden modellminnekravene mens du sikrer output er bit-for-bit identisk for de originale modellen. Denne tilnærmingen senker maskinvarebrangen betydelig for å betjene de største modellene; Teamet demonstrerte å kjøre Metas 810GB Llama-3.1-405B-modell tapfritt på en enkelt server med åtte 80 GB NVIDIA GPUS, en konfigurasjon er open source .
Imidlertid introduserer dette uoverensstemmelsen en ytelse av ytelsen. Sammenlignet med å kjøre en ukomprimert BF16-modell på maskinvare med tilstrekkelig minne, legger DFLOAT11 til latens.
Til tross for latens-avveining i ubegrensede scenarier. Oppgaven viser at det muliggjør Llama-3.3-70B på en enkelt 141 GB H200 GPU og QWEN2.5-32B på en 48 GB A6000, begge umulig med standard BF16. Dette gjør potensielt avanserte modeller brukbare for organisasjoner med mindre GPU-budsjetter.
Kritisk sett kan VRAM lagret ved å komprimere modellvektene brukes til KV-cachen, som ofte begrenser maksimal kontekstlengde. Ved å gi mer plass til denne hurtigbufferen, tillater DFLOAT11 modeller å behandle 5.3x til 13.17x lengre sekvenser For å lette adopsjonen har teamet gjort pre-compressed dfloat11-modeller tilgjengelig på klemmer ansikt argumentet for tapfri nøyaktighet
Eksempler på ytelsesdråper Observerte AUTICUS, Evaluations for åkvantiserende for å bruke denne ugrappen. Kompleksiteter som noen sluttbrukere foretrekker å unngå, siden det skaper ukontrollerte variabler som må empirisk stressetestes for hvert distribusjonsscenario.”For applikasjoner som sensitiv dokumentbehandling der pålitelighet er nøkkelen, kan garantien for bit-for-bit identisk produksjon som tilbys av en tapsfri tilnærming være essensielt. Dette fokuset på effektiv GPU-inferens skiller DFLOAT11 fra andre tapsfrie teknikker. Zipnn Bruker for eksempel CPU-basert dekompresjon hovedsakelig for å akselerere modelllasting og redusere lagringsavtrykk. Tidligere GPU-accelererte tapsløse forsøk, som Neuzip Bruk av ANS-koding via NVIDIAs NVCOMP, ble redusert med å få en reduksjonsbasert koding. p> p> p> p> p>/p> Mye høyere dekompresjonsgjennomstrømning sammenlignet med nvcomps ANS-implementering i papirets benchmarks. Den takler også en annen effektivitetsvinkel enn metoder som Sakana Ais NAMM, som optimaliserer KV-cachen for lange kontekster i stedet for å komprimere statiske vekter. DFLOAT11 tilbyr en spesifikk løsning for å montere store modeller til begrenset GPU-minne uten å kompromittere output-troskap.