Penyelidik dari Rice University dan Startup XMAD.AI mempunyai terperinci terperinci dinamik panjang (dfloat11), teknik yang mencapai kira-kira 30% mampatan lossless untuk berat model bahasa yang besar yang disimpan dalam biasa Arxiv Paper bulan ini Pendekatan ini dengan ketara mengurangkan penghalang perkakasan untuk mengendalikan model terbesar; Pasukan itu menunjukkan model 810GB llama-3.1-405B META pada pelayan tunggal dengan lapan 80GB nvidia gpus, konfigurasi adalah sumber terbuka . Apabila dibandingkan dengan menjalankan model BF16 yang tidak dikompresi pada perkakasan dengan memori yang mencukupi, Dfloat11 menambah latency.
Pengarang Tianyi Zhang
Memori sistem CPU yang lebih perlahan-senario yang diperlukan oleh VRAM yang tidak mencukupi. Zhang meringkaskan:”Jika kekangan perkakasan (model yang lebih besar, urutan yang lebih panjang, atau kelompok yang lebih besar) bukanlah kebimbangan utama, tidak banyak motivasi untuk menggunakan DF11.”Faktor-faktor seperti kesan yang berpotensi terhadap penggunaan kuasa atau kestabilan sistem semasa beban kerja penyahmampatan yang berpanjangan juga memerlukan penilaian dalam penyebaran dunia sebenar. Kertas ini menunjukkan ia membolehkan Llama-3.3-70b pada satu 141GB H200 GPU dan QWEN2.5-32B pada 48GB A6000, kedua-duanya tidak dapat dilaksanakan dengan BF16 standard. Ini berpotensi membuat model canggih boleh digunakan untuk organisasi dengan belanjawan GPU yang lebih kecil. Secara kritikal, VRAM yang disimpan dengan memampatkan berat model boleh digunakan untuk cache KV, yang sering mengehadkan panjang konteks maksimum. Dengan membenarkan lebih banyak ruang untuk cache ini, model yang dibenarkan DFloat11 untuk memproses
Fokus ini pada kesimpulan GPU yang cekap membezakan DFLOAT11 dari teknik lain yang kehilangan. zipnn , sebagai contoh, menggunakan penyahmampatan berasaskan CPU terutamanya untuk mempercepatkan pemuatan model dan mengurangkan jejak penyimpanan. Percubaan lossless yang dipertikaikan oleh GPU sebelum ini, seperti neuzip Menggunakan pengekodan ans melalui nvidia nvidia, dilaporkan mempunyai kelembapan yang tinggi. Kelebihan penyahmampatan yang lebih tinggi berbanding dengan