Một mô hình ngôn ngữ lớn mới từ Deepseek đã lặng lẽ xuất hiện trực tuyến-và nó đã thu hút sự quan tâm vì một lý do bất ngờ: nó chạy nhanh tại địa phương trên một studio Apple Mac. href=”https://huggingface.co/deepseek-ai/deepseek-v3-0324″Target=”_ Blank”> Hugging Face Hôm nay theo giấy phép MIT, cho phép các nhà phát triển tự do sửa đổi và triển khai nó thương mại. Tuy nhiên, điều làm cho nó nổi bật là khả năng hoạt động hiệu quả trên phần cứng cấp tiêu dùng. Nhà phát triển Awni Hannun lần đầu tiên gắn cờ phát hành sau khi thử nghiệm cục bộ. với MLX-LM! pic.twitter.com/wfvrfcxgs6

-awni hannun (@awnihannun) OpenRouter , nơi người dùng có thể tương tác trực tiếp với nó.

DeepSeek-V3-0324 không phải là một mô hình hoàn toàn mới mà là điểm kiểm tra trọng lượng mở đầu tiên của kiến ​​trúc DeepSeek V3 rộng hơn được giới thiệu vào cuối năm 2024. Một kiến ​​trúc hỗn hợp của các chuyên gia (MOE). Mặc dù mô hình tổng cộng 685 tỷ tham số, nhưng chỉ có khoảng 37 tỷ hoạt động bất cứ lúc nào trong quá trình suy luận, điều này làm giảm đáng kể nhu cầu phần cứng. Một. Phiên bản mô hình trước đó đã đạt 90,2 trong bài kiểm tra Math-500, vượt trội so với GPT-4O, 74.6. Nó cũng đạt 79,8 trên MGSM và phù hợp với GPT-4O trên Humaneval-Mul, một chuẩn mực lập trình. Mặc dù những kết quả đó không phản ánh hiệu suất của V3-0324 cụ thể, chúng cung cấp một cửa sổ vào tiềm năng của kiến ​​trúc. Tencent được xác nhận trong thời gian của nó Các ràng buộc. Và kiến ​​trúc hiệu quả đã được chứng minh là hấp dẫn để xử lý khối lượng công việc nhiều ngôn ngữ và lý luận. Để đáp ứng nhu cầu ngày càng tăng, các công ty Trung Quốc đã chuyển sang NVIDIA H20 được cấp thấp hơn-việc áp dụng Deepseek, là một yếu tố quan trọng đằng sau sự tăng đột biến trong các đơn đặt hàng của H20 vào đầu năm nay.

Categories: IT Info