Kỹ thuật DFLOAT11 mới cung cấp nén 30% cho LLM, giảm bớt nhu cầu phần cứng

Các nhà nghiên cứu từ Đại học Rice và Startup XMAD.AI có phao có độ dài động chi tiết (DFLOAT11), một kỹ thuật đạt được khoảng 30% không bị tổn thất cho các trọng số mô hình ngôn ngữ lớn được lưu trữ trong là mở-source . Khi so sánh với việc chạy một mô hình BF16 không nén về phần cứng có đủ bộ nhớ, DFLOAT11 thêm độ trễ.

Tác giả Tianyi Zhang Cung cấp sự làm rõ Trên reddit, lưu ý rằng đối với suy luận kích thước 1 trên A100, DFLOAT11 được quan sát thấy chậm hơn khoảng 40% so với BF16 bản địa. Nhưng vì độ trễ giải nén tương đối ổn định, nó trở nên ít ảnh hưởng hơn ở kích thước lô lớn hơn, với sự chênh lệch gần (1,02 lần) được quan sát ở kích thước lô 128. Bộ nhớ hệ thống CPU-Một kịch bản cần thiết bằng VRAM không đủ. Zhang đã tóm tắt: Nếu các ràng buộc phần cứng (phù hợp với các mô hình lớn hơn, trình tự dài hơn hoặc lô lớn hơn) không phải là mối quan tâm chính, có rất nhiều động lực để sử dụng DF11.”Các yếu tố như tác động tiềm năng đến mức tiêu thụ năng lượng hoặc sự ổn định của hệ thống trong quá trình giải nén kéo dài cũng sẽ yêu cầu đánh giá trong triển khai trong thế giới thực. Bài viết cho thấy nó cho phép LLAMA-3.3-70B trên một GPU H200 141GB duy nhất và QWEN2.5-32B trên A6000 48GB, cả hai đều không khả thi với BF16 tiêu chuẩn. Điều này có khả năng làm cho các mô hình tiên tiến có thể sử dụng cho các tổ chức có ngân sách GPU nhỏ hơn. Bằng cách cho phép nhiều không gian hơn cho bộ nhớ cache này, DFLOAT11 cho phép các mô hình xử lý 5.3x đến 13,17x Để tạo điều kiện nhận con nuôi, nhóm đã thực hiện Các mô hình DFLOAT11 trước được áp dụng có sẵn trên Face Face . Các phương pháp nén mất như lượng tử hóa 4 bit hoặc 8 bit. Mặc dù các điểm chuẩn thường chỉ ra tác động tối thiểu từ các định dạng như INT8 hoặc FP8, bài báo DFLOAT11 lập luận rằng những điều này có thể không hoàn toàn nắm bắt được sự suy giảm chất lượng tinh tế, đặc biệt là cho lý luận phức tạp. Họ trích dẫn Ví dụ về hiệu suất giảm Một số người dùng cuối muốn tránh, vì nó tạo ra các biến không được kiểm soát phải được kiểm tra căng thẳng theo kinh nghiệm cho mỗi kịch bản triển khai.”Đối với các ứng dụng như xử lý tài liệu nhạy cảm trong đó độ tin cậy là chìa khóa, việc đảm bảo đầu ra giống hệt bit-for-bit được cung cấp bởi cách tiếp cận không mất mát có thể là điều cần thiết. zipnn , ví dụ, sử dụng giải nén dựa trên CPU chủ yếu để tăng tốc tải mô hình và giảm dấu chân lưu trữ. Các nỗ lực không lo mất trước GPU, như neuzip Sử dụng mã hóa ANS thông lượng giải nén cao hơn so với Nó cũng giải quyết một góc hiệu quả khác với các phương pháp như Sakana AI, NAMM, giúp tối ưu hóa bộ đệm KV cho các bối cảnh dài thay vì nén các trọng lượng tĩnh. DFLOAT11 cung cấp một giải pháp cụ thể để lắp các mô hình lớn vào bộ nhớ GPU bị ràng buộc mà không ảnh hưởng đến độ trung thực đầu ra.

Kỹ thuật DFLOAT11 mới cung cấp nén 30% cho LLM, giảm bớt nhu cầu phần cứng

Published by All Things Windows on April 27, 2025

IT Info

Google Tìm thấy mạng thiết bị của tôi cạnh gần hơn với theo dõi chính xác UWB

IT Info

Công cụ tải xuống API Doge mới cho phép bạn lưu và phân tích dữ liệu chi tiêu của chính phủ trong Excel

IT Info

Mô hình DeepSeek-R1T-Chimera mới hợp nhất R1 Lý luận với hiệu quả của V3-0324

Kỹ thuật DFLOAT11 mới cung cấp nén 30% cho LLM, giảm bớt nhu cầu phần cứng

Published by All Things Windows on April 27, 2025

Related Posts

IT Info

Google Tìm thấy mạng thiết bị của tôi cạnh gần hơn với theo dõi chính xác UWB

IT Info

Công cụ tải xuống API Doge mới cho phép bạn lưu và phân tích dữ liệu chi tiêu của chính phủ trong Excel

IT Info

Mô hình DeepSeek-R1T-Chimera mới hợp nhất R1 Lý luận với hiệu quả của V3-0324