Deepseek đang đặt cược rằng các mô hình AI phù hợp với don don phải được đào tạo vô tận, họ cần những cách tốt hơn để lý luận thông qua đầu ra của chúng khi chúng tạo ra chúng. Hợp tác với Đại học Tsinghua, công ty đã giới thiệu một phương pháp mới gọi là điều chỉnh phê bình tự hiệu trưởng (SPCT), một kỹ thuật mô hình phần thưởng tổng quát được thiết kế để hoạt động trong quá trình suy luận thay vì yêu cầu dữ liệu ưu tiên quy mô lớn trong quá trình đào tạo. Target=”_ Blank”> Tài liệu nghiên cứu được xuất bản vào ngày 4 tháng 4 và được thử nghiệm trong một mô hình có tên DeepSeek-GRM-27B. Các kết quả rất nổi bật. Kết quả: giảm chi phí, khả năng mở rộng tốt hơn và hiệu suất hiện đại với các mô hình nhỏ hơn. phản hồi. Mô hình Deepseek-GRM của tham số 27 tỷ đồng sử dụng SPCT đạt được điểm số băng ghế MT là 8,35, các mô hình thông qua được đào tạo với tối ưu hóa ưu tiên trực tiếp (DPO), đạt 7,58, không có kích thước mô hình tăng.

Điểm chuẩn độc lập xác nhận thêm rằng SPCT cho phép các mô hình nhỏ hơn phù hợp với hiệu suất của các đối tác lớn hơn nhiều, chẳng hạn như các mô hình quy mô 671B, bằng cách tận dụng tính toán thời gian suy luận với 32 mẫu trên mỗi truy vấn. Theo bài báo, lợi thế của SPCT, trở nên rõ ràng hơn khi các mô hình phát triển lớn hơn, đưa ra một con đường đầy hứa hẹn về phía trước cho các nhà phát triển AI đang tìm cách tránh con đường gia cố chuyên sâu về tính toán từ phản hồi của con người (RLHF). Vòng tổng hợp nguyên tắc, tạo phản ứng, lọc phê bình và sàng lọc nguyên tắc. Mỗi giai đoạn được xây dựng dựa trên giai đoạn cuối cùng để tăng dần chất lượng và sự liên kết của đầu ra mô hình. Ví dụ: khi xử lý các tác vụ liên quan đến mã hóa, mô hình có thể xác định rằng hiệu quả của bộ nhớ sẽ được ưu tiên hơn thời gian chạy và khả năng đọc. Các nguyên tắc này hướng dẫn giai đoạn tiếp theo, trong đó mô hình tạo ra một phản hồi ban đầu trong cửa sổ 4,096 bị ràng buộc. Nó đánh giá đầu ra của nó so với các nguyên tắc tổng hợp và tạo ra phản hồi để cải thiện. Những bài phê bình này được lọc trong thời gian thực bằng mô hình phần thưởng meta (meta-rm), sử dụng phần thưởng 512 chiều nhúng để đạt được chất lượng của mỗi bài phê bình. Các bài phê bình chất lượng kém được loại bỏ để đảm bảo tính toàn vẹn của chu kỳ sàng lọc.

Bước cuối cùng trong vòng lặp là sự tinh chỉnh nguyên tắc. Sử dụng tối ưu hóa dựa trên gradient, mô hình điều chỉnh các heuristic liên kết nội bộ của nó dựa trên mức độ phê bình phù hợp với phản ứng dự định. Điều chỉnh đệ quy này cho phép mô hình hội tụ lặp đi lặp lại trên các đầu ra chất lượng cao, thích ứng động với các chi tiết cụ thể của mỗi truy vấn mà không cần phải can thiệp hoặc đào tạo lại bên ngoài. cài đặt. Mô hình GRM-27B sử dụng 16 chuyên gia, chỉ có hai chuyên gia được kích hoạt trên mỗi mã thông báo và hỗ trợ các cửa sổ ngữ cảnh lên tới 128.000 mã thông báo. Thực hiện đầu cơ giúp tăng cường hiệu suất bằng cách tính toán các đường dẫn phê bình tiềm năng, giảm độ trễ trong quá trình suy luận. Khi xử lý các đợt trình Mery đơn, hệ thống ghi lại độ trễ là 1,4 giây và thông lượng 42 mã thông báo mỗi giây. Đối với kích thước hàng loạt của tám, độ trễ tăng lên 3,1 giây trong khi thang đo thông lượng lên 208 mã thông báo mỗi giây. Kết quả là một phương pháp thực tế, hiệu quả về chi phí, duy trì tính chẵn lẻ hiệu suất với các mô hình lớn hơn nhiều. Mô hình Deepseek-GRM, với 27 tỷ thông số và sử dụng SPCT, đạt được chi phí đào tạo khoảng 12.000 đô la trong khi cung cấp điểm số băng ghế MT mạnh mẽ là 8,35. Ngược lại, Nemotron-4, một mô hình tham số 340B, phải chịu chi phí hơn 1,2 triệu đô la để đạt điểm số băng ghế MT là 8,41. OpenaiTHER GPT-4O, với 1,8 nghìn tỷ thông số, điểm 8,72 với chi phí ước tính là 6,3 triệu đô la. Huấn luyện Costdeepseek-GRM27B8,35 $ 12.000Nemotron-4340B8,41 $ 1,2 triệugpt-4O1.8T8.72 $ 6,3 triệu

Hiệu suất, SPCT cung cấp những lợi thế hấp dẫn trong tính bền vững và linh hoạt. Nó loại bỏ gần 90 phần trăm chú thích của con người thường cần thiết để liên kết, giảm đáng kể các khoản đầu tư lao động và thời gian. Hơn nữa, nó làm giảm mức tiêu thụ năng lượng 73 % so với DPO, khiến nó trở thành một lựa chọn có trách nhiệm với môi trường để phát triển AI. Các phương pháp căn chỉnh truyền thống bị giới hạn bởi chất lượng và phạm vi của bộ dữ liệu đào tạo của họ, khiến chúng chậm điều chỉnh theo các nhiệm vụ mới lạ hoặc phát triển. Ngược lại, chiến lược suy luận đệ quy SPCT, cho phép các mô hình tạo ra và tinh chỉnh các nguyên tắc một cách nhanh chóng, cho phép chúng xử lý các đầu vào không thể đoán trước và thay đổi mục tiêu mà không cần đào tạo lại. Nhóm DeepSeek đang tích cực khám phá ứng dụng SPCT, trong các hệ thống học tập và kiểm soát robot thời gian thực, trong đó sự hợp tác giữa nhiều tác nhân yêu cầu các cơ chế liên kết thích ứng. Vào ngày 24 tháng 3, Deepseek đã phát hành một bản cập nhật trọng lượng mở của mẫu Deepseek-V3 để ôm mặt dưới giấy phép MIT, được đặt tên là Deepseek v3.1. Mô hình, nặng ở mức 641GB, chạy hiệu quả trên phần cứng cục bộ.

Nhà phát triển AWNI Hannun, thử nghiệm phiên bản 4 bit được định lượng trên studio Apple Mac 512GB,

Các đối thủ cạnh tranh cũng đang di chuyển mạnh mẽ. Microsoft đã tích hợp mô hình Openai từ O1 vào Copilot mà không phải trả thêm chi phí, và sau đó ngay sau đó đã nâng cấp lên O3-Mini cao. XAI, đã phát hành Grok 3 vượt trội so với GPT-4O. Google vào tháng 3 sau đó đã tiết lộ Gemini 2.5 Pro thử nghiệm, đòi lại các vị trí hàng đầu trong các điểm chuẩn khác nhau và sau đó ngay sau khi mở khóa truy cập miễn phí vào mô hình này cho tất cả người dùng. 

Openai đã phản ứng với tất cả những phát triển này sau quyết định tháng 2 để hủy bỏ việc phát hành mô hình O3 mạnh nhất của mình để phát hành O3 và O4-mini trong tương lai gần, rất có thể đang bị ảnh hưởng để tụt lại phía sau cuộc đua AI. Các mô hình ngôn ngữ lớn giới thiệu các thay đổi kiến ​​trúc lớn trong khi mở rộng sự hiện diện của công ty trên các ứng dụng tiêu dùng và nền tảng đám mây.