Peneliti dari Rice University dan Startup XMAD.AI memiliki detail float panjang dinamis (DFLOAT11), sebuah teknik yang mencapai sekitar 30% kompresi lossless untuk bobot model bahasa besar yang disimpan di kertas arxiv bulan ini , metode ini mengurangi persyaratan memori model sambil memastikan output adalah bit-for-bit identik untuk aslinya. Pendekatan ini secara signifikan menurunkan penghalang perangkat keras untuk mengoperasikan model terbesar; Tim menunjukkan menjalankan model Meta 810GB LLAMA-3.1-405B Meta pada satu server dengan delapan 80GB NVIDIA GPU, sebuah konfigurasi
DFloat11 works by addressing a known Inefisiensi statistik dalam format angka BF16, yang menggunakan 1 tanda tanda, 8 bit eksponen, dan 7 bit mantissa. Sementara 8 bit (256 nilai yang mungkin) dialokasikan untuk eksponen, analisis para peneliti mengkonfirmasi bahwa konten informasi aktual (Shannon Entropy) di berbagai LLM seperti LLAMA 3, QWEN 2.5, dan Gemma 3 rata-rata hanya sekitar 2,6 bit. Banyak nilai eksponen tidak pernah digunakan oleh model. DFLOAT11 Berlaku Huffman Coding-Algoritma kompresi data lossless klasik-khususnya untuk nilai eksponen. Eksponen yang lebih sering mendapatkan kode yang lebih pendek, yang lebih jarang mendapatkan kode yang lebih lama. Tanda asli dan bit mantissa dipertahankan tanpa kompresi. This approach effectively cuts the average storage per parameter from 16 bits down to around 11 bits, yielding the ~30% size reduction while guaranteeing the decoded value is mathematically identical to the original BF16 number. The main technical challenge wasn’t just compressing the weights, but enabling fast inference using them directly on GPU. Karena unit matematika GPU standar, seperti inti tensor, dioptimalkan untuk input ukuran tetap (seperti BF16 atau Int8), bobot DFLOAT11 panjang variabel harus didekompresi kembali ke BF16 segera sebelum perhitungan. Decoding Huffman tradisional secara inheren berurutan dan lambat pada perangkat keras paralel. Untuk menyelesaikannya, tim mengembangkan kernel CUDA khusus. Kernel ini menggunakan beberapa strategi: menggunakan tabel pencarian multi-level yang ringkas (berjumlah 1kb) yang dirancang agar sesuai dengan GPU SRAM yang cepat; Ini menggunakan mekanisme dua fase dengan data tambahan minimal untuk memungkinkan utas paralel untuk menghitung posisi awal mereka dengan benar dalam data terkompresi dan menulis posisi dalam buffer output; dan memproses bobot untuk seluruh blok transformator bersama-sama untuk memaksimalkan throughput. Kode, terintegrasi dengan perpustakaan Face Transformers, adalah open-source . Namun, dekompresi on-the-fly ini memperkenalkan pertukaran kinerja. Bila dibandingkan dengan menjalankan model BF16 yang tidak terkompresi pada perangkat keras dengan memori yang cukup, dfloat11 menambahkan latensi. Penulis tianyi zhang memberikan klarifikasi pada reddit, mencatat bahwa untuk inferensi ukuran 1 batch pada A100, dfloat11 diamati sekitar 40% lebih lambat dari BF16 asli. But because the decompression latency is relatively constant, it becomes less impactful at larger batch sizes, with near-parity (1.02x difference) observed at batch size 128. The significant speedups reported in the paper (1.9x-38.8x higher throughput) relate specifically to comparing DFloat11 (on GPU) versus the alternative of running the uncompressed model partially offloaded to much slower Memori Sistem CPU-Skenario yang diperlukan oleh VRAM yang tidak mencukupi. Zhang merangkum:”Jika kendala perangkat keras (pemasangan model yang lebih besar, urutan yang lebih panjang, atau batch yang lebih besar) bukanlah perhatian utama, tidak ada banyak motivasi untuk menggunakan DF11.”Faktor-faktor seperti dampak potensial pada konsumsi daya atau stabilitas sistem selama beban kerja dekompresi yang berkepanjangan juga akan memerlukan evaluasi dalam penyebaran dunia nyata. Meskipun ada latensi yang diperlihatkan dalam skenario yang tidak dibatasi, proposisi nilai primer DFLOAT11 adalah nilai proposisi yang tidak dibesarkan. Makalah ini menunjukkan memungkinkan Llama-3.3-70b pada GPU H200 141GB tunggal dan Qwen2.5-32b pada A6000 48GB, keduanya tidak layak dengan BF16 standar. Ini berpotensi membuat model canggih dapat digunakan untuk organisasi dengan anggaran GPU yang lebih kecil. Secara kritis, VRAM yang disimpan dengan mengompresi bobot model dapat digunakan untuk cache KV, yang sering membatasi panjang konteks maksimum. Dengan memberikan lebih banyak ruang untuk cache ini, DFLOAT11 mengizinkan model untuk memproses 5.3x ke 13.17x urutan yang lebih panjang dibandingkan dengan bf16 pada hardware yang sama sebelum menjalankan out. Untuk memfasilitasi adopsi, tim telah membuat model dfloat11 pra-dikompresi yang tersedia pada pemeluk diri wajah
Exploiting BF16 Inefficiency
Enabling Efficient GPU Decompression
aksesibilitas perangkat keras dan konteks yang lebih lama
argumen ARRIGASI ARRICIONS11. ARRIPS11 ARRIONS11 Metode kompresi lossy seperti kuantisasi 4-bit atau 8-bit. Sementara tolok ukur sering menunjukkan dampak minimal dari format seperti INT8 atau FP8, makalah DFLOAT11 berpendapat ini mungkin tidak sepenuhnya menangkap degradasi kualitas halus, terutama untuk penalaran yang kompleks. Mereka mengutip Contoh penurunan kinerja Diamati dalam evaluasi spesifik untuk kuantisasi ini. Bahwa beberapa pengguna akhir lebih suka menghindari, karena itu menciptakan variabel yang tidak terkendali yang harus diuji secara empiris untuk setiap skenario penempatan.”Untuk aplikasi seperti pemrosesan dokumen sensitif di mana keandalan adalah kuncinya, jaminan output identik bit-for-bit yang ditawarkan oleh pendekatan lossless dapat menjadi penting.
Fokus pada inferensi GPU yang efisien membedakan DFLOAT11 dari teknik lossless lainnya. zipnn , misalnya, menggunakan dekompresi berbasis CPU terutama untuk mempercepat pemuatan model dan mengurangi jejak penyimpanan. Upaya lossless yang diakelerasi GPU sebelumnya, seperti neuzip Menggunakan pengkodean Ans melalui nvidia nvidia, dilaporkan memiliki perlambatan inferensi yang signifikan. Throughput dekompresi yang lebih tinggi dibandingkan dengan Implementasi ANS NVCOMP Dalam tolok ukur kertas. Ini juga menangani sudut efisiensi yang berbeda dari metode seperti Sakana AI’s NAMM, yang mengoptimalkan cache KV untuk konteks panjang daripada mengompresi bobot statis. DFLOAT11 menawarkan solusi khusus untuk pemasangan model besar ke dalam memori GPU yang dibatasi tanpa mengurangi kesetiaan keluaran.