Penyelidik dari Rice University dan Startup XMAD.AI mempunyai terperinci terperinci dinamik panjang (dfloat11), teknik yang mencapai kira-kira 30% mampatan lossless untuk berat model bahasa yang besar yang disimpan dalam biasa Arxiv Paper bulan ini Pendekatan ini dengan ketara mengurangkan penghalang perkakasan untuk mengendalikan model terbesar; Pasukan itu menunjukkan model 810GB llama-3.1-405B META pada pelayan tunggal dengan lapan 80GB nvidia gpus, konfigurasi adalah sumber terbuka . Apabila dibandingkan dengan menjalankan model BF16 yang tidak dikompresi pada perkakasan dengan memori yang mencukupi, Dfloat11 menambah latency.

Pengarang Tianyi Zhang

Memori sistem CPU yang lebih perlahan-senario yang diperlukan oleh VRAM yang tidak mencukupi. Zhang meringkaskan:”Jika kekangan perkakasan (model yang lebih besar, urutan yang lebih panjang, atau kelompok yang lebih besar) bukanlah kebimbangan utama, tidak banyak motivasi untuk menggunakan DF11.”Faktor-faktor seperti kesan yang berpotensi terhadap penggunaan kuasa atau kestabilan sistem semasa beban kerja penyahmampatan yang berpanjangan juga memerlukan penilaian dalam penyebaran dunia sebenar. Kertas ini menunjukkan ia membolehkan Llama-3.3-70b pada satu 141GB H200 GPU dan QWEN2.5-32B pada 48GB A6000, kedua-duanya tidak dapat dilaksanakan dengan BF16 standard. Ini berpotensi membuat model canggih boleh digunakan untuk organisasi dengan belanjawan GPU yang lebih kecil.

Secara kritikal, VRAM yang disimpan dengan memampatkan berat model boleh digunakan untuk cache KV, yang sering mengehadkan panjang konteks maksimum. Dengan membenarkan lebih banyak ruang untuk cache ini, model yang dibenarkan DFloat11 untuk memproses model dfloat11 pra-dikompresi yang boleh dipeluk contoh-contoh penurunan prestasi diperhatikan dalam penilaian tertentu untuk model kuantiti. Kerumitan yang sesetengah pengguna akhir lebih suka mengelakkan, kerana ia mewujudkan pembolehubah yang tidak terkawal yang mesti diuji secara empirik untuk setiap senario penempatan.”Bagi aplikasi seperti pemprosesan dokumen sensitif di mana kebolehpercayaan adalah kunci, jaminan output identik bit-for-bit yang ditawarkan oleh pendekatan lossless boleh menjadi penting.

Fokus ini pada kesimpulan GPU yang cekap membezakan DFLOAT11 dari teknik lain yang kehilangan. zipnn , sebagai contoh, menggunakan penyahmampatan berasaskan CPU terutamanya untuk mempercepatkan pemuatan model dan mengurangkan jejak penyimpanan. Percubaan lossless yang dipertikaikan oleh GPU sebelum ini, seperti neuzip Menggunakan pengekodan ans melalui nvidia nvidia, dilaporkan mempunyai kelembapan yang tinggi. Kelebihan penyahmampatan yang lebih tinggi berbanding dengan NVCOMP’s ans pelaksanaan dalam tanda aras kertas. Ia juga menangani sudut kecekapan yang berbeza daripada kaedah seperti NAMM Sakana AI, yang mengoptimumkan cache KV untuk konteks yang panjang dan bukannya memampatkan berat statik. DFloat11 menawarkan penyelesaian khusus untuk pemasangan model besar ke dalam memori GPU yang terkawal tanpa menjejaskan kesetiaan output.

Categories: IT Info