萊斯大學和創業XMAD.AI的研究人員具有詳細的動態長度浮點(DFLOAT11),這是一種在常見

arxiv紙本月中,方法,該方法在確保輸出與原始原始位置相同的同時,該方法降低了模型存儲器。這種方法大大降低了操作最大型號的硬件障礙。該團隊展示了運行META的810GB LLAMA-3.1-405B模型在具有八個80GB NVIDIA GPU的單個服務器上失誤,配置

模型絕對不使用許多指數值。 DFLOAT11應用Huffman編碼-一種經典的無損數據壓縮算法-專門用於指數值。更頻繁的指數獲得較短的代碼,稀有代碼獲得更長的代碼。原始符號和Mantissa位保留而沒有壓縮。 This approach effectively cuts the average storage per parameter from 16 bits down to around 11 bits, yielding the ~30% size reduction while guaranteeing the decoded value is mathematically identical to the original BF16 number.

Enabling Efficient GPU Decompression

The main technical challenge wasn’t just compressing the weights, but enabling fast inference using them directly on GPU。由於標準的GPU數學單元(如張量芯)已針對固定尺寸的輸入(例如BF16或INT8)進行了優化,因此在計算之前,必須將可變的長度DFLOAT11權重解散至BF16。傳統的霍夫曼解碼本質上是順序的,並且在並行硬件上是緩慢的。

為了解決這個問題,團隊開發了一個自定義的CUDA內核。該內核採用多種策略:它使用緊湊的多級查找表(總計僅1KB),旨在適合快速的芯片GPU SRAM;它使用具有最小輔助數據的兩階段機制來允許並行線程在壓縮數據中正確計算其起始位置並在輸出緩衝區中寫入位置;並且它處理整個變壓器塊的權重,以最大程度地提高吞吐量。該代碼與擁抱臉部變壓器庫集成,是開放式source

,但是,此in-the-fly Decompression the-the-fly Decompression sudment cormass temally cartures cormasuce criend crifceck。與在硬件上運行未壓縮的BF16模型相比,dfloat11添加了潛伏期。

作者tianyi zhang 在reddit上提供了澄清,請注意,對於A100上的批次尺寸1推斷,dfloat11被觀察到比本機BF16慢40%。 But because the decompression latency is relatively constant, it becomes less impactful at larger batch sizes, with near-parity (1.02x difference) observed at batch size 128.

The significant speedups reported in the paper (1.9x-38.8x higher throughput) relate specifically to comparing DFloat11 (on GPU) versus the alternative of running the uncompressed model partially offloaded to much slower CPU系統內存- VRAM不足所需的情況。張總結說:“如果硬件約束(擬合較大的型號,更長的序列或更大的批次)並不是主要問題,那麼使用DF11的動機並不多。 “在長時間減壓工作量期間對功耗的潛在影響或系統穩定性等因素也將需要在現實世界部署中進行評估。

硬件可訪問性和更長的上下文可訪問性

,儘管延遲在不限制的情況下取得了延遲,但DFLOAT11的主要價值主張是可減少的硬件,並且可以減少擴展硬件的能力。該論文顯示,它可以在單個141GB H200 GPU和QWEN2.5-32B上啟用Llama-3.3-70B,在48GB A6000上,都與標準BF16不可行。這有可能使可用於較小GPU預算的組織使用的最新模型。

至關重要的是,通過壓縮模型權重來保存的VRAM可以用於KV緩存,這通常會限制最大上下文長度。通過允許更多的緩存空間,DFLOAT11允許模型 5.3 x至13.17x更長的序列與BF16相比,與BF16相比,與同一硬件相比,該序列與BF16相比。為了促進採用,團隊已經製作了預壓縮的dfloat11模型可在擁抱臉上提供

無效準確的準確性準確性地討論了潛在的

d dflyy11壓縮方法等4位或8位量化。儘管基准通常表明INT8或FP8等格式的影響很小,但DFLOAT11論文認為這些可能無法完全捕獲微妙的質量降解,尤其是對於復雜的推理。他們引用示例的示例降低在量化模型的特定評估中觀察到的

dfloat11的核心吸引力逐漸逐步逐漸逐漸散發出來,因為它逐漸逐漸丟失,而不必如此。一些最終用戶寧願避免,因為它會產生不受控制的變量,這些變量必須在每個部署場景中經驗進行經驗壓力測試。”對於諸如可靠性是關鍵的敏感文檔處理之類的應用程序,通過無損方法提供的位相同輸出的保證是必不可少的。

這種關注有效的GPU推理將DFLOAT11與其他無損技術區分開來。 zipnn ,例如,使用基於CPU的解壓縮主要用於加速模型加載並減少存儲足跡。先前的GPU加速無損嘗試,例如 neuzip 據報導,通過NVIDIA的NVCOMP使用ANS編碼,據報導,根據NVCOMP的ANS編碼,具有明顯的優點速度降低。與 nvcomp的ANS實現在紙張的基準中,與