DeepSeek một lần nữa phá vỡ vị thế độc quyền của những gã khổng lồ công nghệ phương Tây về lý luận ưu tú, cho ra mắt một mô hình AI mở phù hợp với hiệu suất của OpenAI và Google trong toán học.
Ra mắt vào thứ Năm, DeepSeekMath-V2 đã đạt tiêu chuẩn Huy chương Vàng tại Olympic Toán học Quốc tế (IMO) năm 2025.
Trong Cuộc thi Toán học William Lowell Putnam, cuộc thi toán học nổi bật dành cho sinh viên đại học ở Hoa Kỳ và Canada, mô hình đạt 118/120 điểm, vượt qua điểm số cao nhất của con người là 90. Không giống như các hệ thống đối thủ ẩn đằng sau API, DeepSeek đã công bố trọng số một cách công khai, cho phép các nhà nghiên cứu kiểm tra logic của nó một cách trực tiếp.
Ra mắt trong thời điểm mẫu R2 hàng đầu bị trì hoãn do các biện pháp kiểm soát xuất khẩu của Hoa Kỳ, việc phát hành này báo hiệu khả năng phục hồi về mặt kỹ thuật. Nó chứng tỏ các kiến trúc chuyên dụng có thể mang lại kết quả tiên tiến ngay cả khi quyền truy cập vào phần cứng tiên tiến bị hạn chế.
Tiêu chuẩn Vàng: Phá vỡ sự độc quyền độc quyền
DeepSeekMath-V2 đã chính thức đạt tiêu chuẩn “Huy chương Vàng” tại Olympic Toán học Quốc tế (IMO) năm 2025, giải thành công 5 trên 6 bài toán. Phù hợp với các tiêu chuẩn độc quyền do cột mốc tương tự của Google DeepMind đặt ra và hiệu suất đạt huy chương vàng của OpenAI, hiệu suất này đã san bằng sân chơi với các hệ thống mà trước đây không thể chạm tới được.
Khác xa với một bản cập nhật lặp đi lặp lại đơn giản, bản phát hành này thể hiện sự thay đổi cơ bản trong khả năng tiếp cận lý luận AI ưu tú. Trong khi các phòng thí nghiệm phương Tây giữ các mô hình toán học có khả năng tốt nhất của họ đằng sau những bức tường”người thử nghiệm đáng tin cậy”hoặc các API đắt tiền, kho lưu trữ mô hình cho DeepSeekMath-V2 hiện có sẵn để tải xuống ngay lập tức.
Các tổ chức học thuật và nhà nghiên cứu doanh nghiệp hiện có thể chạy mô hình cục bộ, xác minh khả năng của mô hình mà không cần dựa vào cơ sở hạ tầng đám mây có thể gây lo ngại về quyền riêng tư dữ liệu hoặc những hạn chế về địa chính trị.
Ngoài IMO, mô hình này còn thể hiện khả năng chưa từng có trong Cuộc thi Putnam, được nhiều người coi là kỳ thi toán đại học khó nhất ở Bắc Mỹ. Nhấn mạnh thành tích, Nhóm nghiên cứu DeepSeek cho biết:
“Tại Putnam 2024, cuộc thi toán đại học nổi bật, mô hình của chúng tôi đã giải quyết hoàn toàn 11 trong số 12 vấn đề và vấn đề còn lại mắc các lỗi nhỏ, đạt điểm 118/120 và vượt qua số điểm nhân lực cao nhất là 90.”
Vượt qua giới hạn con người trong một kỳ thi nghiêm ngặt như vậy cho thấy mô hình không chỉ đơn thuần là lấy lại các bằng chứng đã ghi nhớ mà còn tham gia vào sự mới lạ.”giải quyết vấn đề. Việc đạt được 118 trên 120 là điều đặc biệt đáng chú ý do các bài toán cực kỳ khó, trong đó điểm trung bình thấp lịch sử.
Phân tích độc lập đã xác thực thêm các số liệu nội bộ này. Các đánh giá về tập hợp con “Cơ bản” của IMO-ProofBench, một điểm chuẩn do Google DeepMind phát triển, cho thấy mô hình đạt tỷ lệ thành công 99,0%, xác nhận tính nhất quán trong lý luận của nó trên một loạt các lĩnh vực toán học.
Việc xác minh là rất quan trọng ở đây, vì lĩnh vực này gần đây đã gặp khó khăn bởi các kết quả bị thổi phồng quá mức, chẳng hạn như khiếu nại đã được rút lại liên quan đến GPT-5, cáo buộc sai rằng mô hình đã giải được Erdős nổi tiếng
Bằng cách giải phóng sức nặng, DeepSeek đã thương mại hóa một cách hiệu quả một khả năng được coi là hào cạnh tranh lớn cho Thung lũng Silicon chỉ vài tháng trước. Clement Delangue, Đồng sáng lập và Giám đốc điều hành của Hugging Face, đã nhấn mạnh tầm quan trọng của sự thay đổi này trong một bài đăng trên X:
Theo những gì tôi biết, không có chatbot hay API nào cung cấp cho bạn quyền truy cập vào mô hình huy chương vàng IMO 2025. Điều này không chỉ thay đổi ngày hôm nay mà còn có thể tải xuống các trọng số bằng bản phát hành mã nguồn mở Apache 2.0 của @deepseek_ai Math-V2 trên @huggingface!
Hãy tưởng tượng sở hữu… pic.twitter.com/FbTcg1GcnE
— clem 🤗 (@ClementDelangue) Ngày 27 tháng 11 năm 2025
Nâng cao: Đột phá’Xác minh meta’
Về mặt lịch sử, thách thức trung tâm trong AI toán học là”ảo giác”, trong đó các mô hình đi đến câu trả lời đúng bằng cách sử dụng logic thiếu sót, vòng tròn hoặc vô nghĩa. Trong các tiêu chuẩn lý luận định lượng, các mô hình thường có thể đoán đúng số mà không cần hiểu các nguyên tắc cơ bản. Nhóm nghiên cứu DeepSeek đã giải thích vấn đề cốt lõi trong sách trắng kỹ thuật:
“Nhiều nhiệm vụ toán học như chứng minh định lý yêu cầu dẫn xuất nghiêm ngặt theo từng bước thay vì các câu trả lời bằng số, khiến phần thưởng cho câu trả lời cuối cùng không thể áp dụng được.”
Để giải quyết hạn chế cơ bản này, bài viết kỹ thuật trình bày chi tiết về kiến trúc mới tập trung vào “Xác minh meta”. Không giống như các phương pháp xác minh tiêu chuẩn chỉ kiểm tra xem câu trả lời có khớp với tham chiếu hay không, phương pháp của DeepSeek tự đánh giá quá trình xác minh.
DeepSeek đào tạo một mô hình thứ cấp để đánh giá chất lượng phân tích của người xác minh, ngăn mô hình chính”đánh lừa”hệ thống phần thưởng bằng cách tạo ra các bằng chứng nghe có vẻ thuyết phục nhưng vô hiệu về mặt logic.
Tạo ra một biện pháp bảo vệ chống lại hành vi hack phần thưởng, cấu trúc đệ quy này đảm bảo rằng mô hình chỉ được khen thưởng nếu có lý luận chặt chẽ thực sự. Bằng cách đánh giá xem các vấn đề được xác định trong bằng chứng có chứng minh được điểm số một cách hợp lý hay không, hệ thống sẽ thực thi tính nhất quán logic nghiêm ngặt.
Nền tảng của kiến trúc này là quy trình đào tạo”Bắt đầu nguội”. Thay vì dựa vào các tập dữ liệu khổng lồ bên ngoài về các bằng chứng toán học hình thức vốn khan hiếm và tốn kém để quản lý, mô hình này sẽ lặp đi lặp lại tạo ra dữ liệu huấn luyện của riêng mình. Mô tả phương pháp này, các nhà nghiên cứu nêu rõ:
“Chúng tôi tin rằng LLM có thể được đào tạo để xác định các vấn đề bằng chứng mà không cần giải pháp tham khảo. Trình xác minh như vậy sẽ cho phép một chu trình cải tiến lặp đi lặp lại: (1) sử dụng phản hồi xác minh để tối ưu hóa việc tạo bằng chứng, (2) tính toán xác minh mở rộng để tự động gắn nhãn cho các bằng chứng mới khó xác minh… và (3) sử dụng trình xác minh nâng cao này để tối ưu hóa hơn nữa việc tạo bằng chứng.”
“Hơn nữa, một trình xác minh đáng tin cậy cho phép chúng tôi dạy những người tạo bằng chứng đánh giá bằng chứng như người xác minh thực hiện. Điều này cho phép trình tạo bằng chứng liên tục tinh chỉnh các bằng chứng của mình cho đến khi không còn có thể xác định hoặc giải quyết bất kỳ vấn đề nào.”
Thông qua chu trình này, mô hình sẽ phát huy các khả năng của chính nó. Khi trình xác minh trở nên chính xác hơn, nó có thể xác định được nhiều lỗi tinh vi hơn trong đầu ra của trình tạo. Do đó, trình tạo buộc phải tạo ra các bằng chứng chặt chẽ hơn để đáp ứng trình xác minh nâng cao.
Động lực như vậy tạo ra một vòng phản hồi tích cực giúp nâng cao hiệu suất mà không yêu cầu tăng tỷ lệ dữ liệu do con người gắn nhãn. Tại thời điểm suy luận, mô hình sử dụng”tính toán theo thời gian thử nghiệm theo tỷ lệ”. Thay vì tạo ra một câu trả lời duy nhất, hệ thống tạo ra 64 bằng chứng ứng viên cho một vấn đề nhất định.
Sau đó, nó sẽ chạy quy trình xác minh trên tất cả 64 ứng viên để chọn ra con đường hợp lý nhất. Chuyển gánh nặng tính toán từ giai đoạn đào tạo (mở rộng tham số) sang giai đoạn suy luận (tìm kiếm lý luận), phương pháp này phù hợp với xu hướng rộng hơn của ngành theo hướng tư duy “Hệ thống 2″, trong đó các mô hình “suy ngẫm” một vấn đề trước khi đưa ra giải pháp.
Khả năng phục hồi chiến lược: Đổi mới bất chấp các biện pháp trừng phạt
Là một câu chuyện phản biện quan trọng đối với những cuộc đấu tranh gần đây của công ty về tính khả dụng của phần cứng, bản phát hành này thể hiện sự linh hoạt đáng kể về mặt kỹ thuật. Mẫu R2 hàng đầu của DeepSeek phải đối mặt với sự chậm trễ liên quan đến phần cứng do lỗi liên tục trong quá trình đào tạo trên chip Ascend nội địa của Huawei.
Thất bại đó nêu bật khó khăn to lớn mà các công ty Trung Quốc gặp phải trong việc xây dựng hệ thống phần mềm trên phần cứng mới nổi, chưa được chứng minh dưới áp lực kiểm soát xuất khẩu của Hoa Kỳ. Bằng cách chuyển sang kiến trúc tập trung vào hiệu quả, phòng thí nghiệm đang chứng minh rằng họ vẫn có thể cung cấp nghiên cứu tiên tiến.
DeepSeekMath-V2 được xây dựng trên DeepSeek-V3.2-Exp-Base, chứng minh rằng cơ chế chú ý thưa thớt được giới thiệu trong mô hình đó từ tháng 9 đã sẵn sàng để sản xuất.
Vào tháng 10, công ty đã ra mắt công cụ nhận dạng ký tự quang học, sử dụng các kỹ thuật hiệu quả tương tự để nén quá trình xử lý tài liệu xuống gấp 10 lần.
Open-weight Tính khả dụng đặt áp lực đáng kể lên các phòng thí nghiệm phương Tây trong việc biện minh cho cách tiếp cận nguồn đóng của họ.
Khi”con hào”về khả năng lý luận dường như đang bốc hơi, lập luận rằng sự an toàn đòi hỏi phải khóa và khóa các mô hình này sẽ trở nên khó duy trì hơn khi các khả năng tương đương được cung cấp miễn phí trên Hugging Face.
Đối với ngành công nghiệp AI rộng lớn hơn, bản phát hành này cho thấy rằng các mô hình chuyên dụng, được tối ưu hóa cao có thể đưa ra một con đường khả thi về phía trước ngay cả khi quyền truy cập vào các cụm GPU Nvidia khổng lồ bị hạn chế.
Bằng cách tập trung vào thuật toán.
Bằng cách tập trung vào thuật toán những đổi mới như Siêu xác minh và sự chú ý thưa thớt, DeepSeek đang tạo ra một phân khúc cạnh tranh ít phụ thuộc vào quy mô mạnh mẽ mà dựa nhiều hơn vào sự khéo léo trong kiến trúc.