Công ty AI Trung Quốc Moonshot AI có một mô hình nguồn mở mới có tên Kimi K2 Thought. Ra mắt vào ngày 6 tháng 11 từ trụ sở ở Bắc Kinh, nó đánh dấu một bước quan trọng trong cuộc đua toàn cầu nhằm xây dựng AI có thể tự hoạt động.

Mô hình này là một “tác nhân tư duy”. Nó có thể giải quyết các vấn đề khó khăn bằng cách sử dụng các công cụ kỹ thuật số qua hàng trăm bước. Moonshot muốn đánh bại các đối thủ của mình trong thị trường AI khắc nghiệt của Trung Quốc.

Tiếp nối các mẫu Kimi K2 và Kimi K2 Turbo có thông số nghìn tỷ, phiên bản mới này tập trung vào khả năng suy luận cấp cao và đạt điểm cao nhất trong các bài kiểm tra ngành.

Một’Tác nhân tư duy’được xây dựng để sử dụng công cụ và suy luận phức tạp

Từ trụ sở chính ở Bắc Kinh, Moonshot AI đang thực hiện một hoạt động tích cực khác trong lĩnh vực AI.

Công ty đã định vị Kimi K2 Thought không chỉ đơn thuần là một bản nâng cấp mà còn là một lớp mô hình mới tập trung vào việc thực thi tự động. Nó được thiết kế như một “tác nhân tư duy”có khả năng suy luận từng bước để giải quyết các vấn đề phức tạp.

Một khả năng quan trọng được công ty nhấn mạnh là khả năng thực hiện từ 200 đến 300 lệnh gọi công cụ tuần tự, cho phép nó hoàn thành các nhiệm vụ phức tạp, nhiều giai đoạn mà không cần sự can thiệp của con người.

Không giống như người tiền nhiệm Kimi K2 Turbo vốn tập trung vào tốc độ thô, bản phát hành mới này ưu tiên chiều sâu nhận thức. Kiến trúc cơ bản của nó vẫn là mô hình Hỗn hợp các chuyên gia (MoE) khổng lồ gồm một nghìn tỷ tham số, kích hoạt 32 tỷ tham số cho bất kỳ mã thông báo nhất định nào.

Theo thẻ mô hình chính thức, nó có độ dài ngữ cảnh mở rộng 256K. Cửa sổ lớn này cho phép nó xử lý và phân tích toàn bộ cơ sở mã hoặc hàng trăm trang tài liệu trong một lần chuyển, một tính năng quan trọng đối với các nhiệm vụ doanh nghiệp phức tạp.

Một cải tiến kỹ thuật quan trọng là lượng tử hóa INT4 nguyên gốc của nó, đạt được thông qua một phương pháp có tên là Đào tạo nhận biết lượng tử hóa (QAT). Điều này cho phép mô hình chạy với các phép tính có độ chính xác thấp hơn, tăng gấp đôi tốc độ suy luận một cách hiệu quả trong khi vẫn duy trì hiệu suất của các đối tác có độ chính xác cao hơn.

Đối với các nhà phát triển, điều này giúp việc triển khai mô hình nghìn tỷ tham số trở nên khả thi về mặt tính toán hơn và tiết kiệm chi phí hơn, giảm bớt rào cản lớn đối với việc áp dụng.

Moonshot báo cáo rằng Kimi K2 Thought đã đạt điểm 44,9 trong Bài kiểm tra cuối cùng của Nhân loại (có các công cụ), một bài kiểm tra kiến ​​thức ở cấp độ chuyên gia. Trong các tác vụ duyệt và tìm kiếm tác nhân như DuyệtComp, nó đạt 60,2 và trong bài kiểm tra mã hóa tác nhân SWE-Bench Verify, nó đạt 71,3. (xem bảng điểm chuẩn đầy đủ ở cuối)

Những kết quả này đặt nó ở vị trí dẫn đầu trong các mô hình nguồn mở được thiết kế cho các khả năng tác tử.

Một nước cờ chiến lược trong cuộc chiến AI khốc liệt của Trung Quốc

Phát hành Kimi K2 Thought là một bước đi có tính toán trong thị trường AI siêu cạnh tranh của Trung Quốc, thường được mệnh danh là “cuộc chiến của một trăm mô hình”.

Moonshot AI, từng là một một ngôi sao đang lên, đã phải đối mặt với áp lực mạnh mẽ từ các đối thủ trong nước như DeepSeek, Z.ai và Alibaba. Mô hình mới này là một nỗ lực trực tiếp nhằm giành lại vị trí dẫn đầu bằng cách chuyển trọng tâm cạnh tranh từ tốc độ và giá cả sang lý luận phức tạp và hiệu suất tác nhân.

Sự chuyển hướng này xuất hiện sau một giai đoạn đầy thử thách đối với công ty. Mẫu Kimi K2 ban đầu của nó, ra mắt vào tháng 7, là một trò chơi mã nguồn mở táo bạo.

Tuy nhiên, thị trường nhanh chóng trở nên bão hòa với các lựa chọn thay thế giá rẻ, đặc biệt là từ đối thủ DeepSeek, điều này đã gây ra một cuộc chiến giá cả khốc liệt. Điều này ảnh hưởng trực tiếp đến cơ sở người dùng của ứng dụng trò chuyện Kimi của Moonshot, khiến ứng dụng này bị trượt thứ hạng trong nước.

Dữ liệu mới vào tháng 10 năm 2025 từ Statcounter xác nhận sự cạnh tranh gay gắt, cho thấy Moonshot hiện không nằm trong số các nhà cung cấp chatbot AI được xếp hạng hàng đầu ở Trung Quốc.

Moonshot đang đặt cược vào khả năng vượt trội trong lĩnh vực AI tác nhân mới nổi có thể xây dựng một vị thế thị trường có tính bảo vệ cao hơn so với việc chỉ cạnh tranh bằng chi phí. Tuy nhiên, việc tập trung cao độ vào hiệu suất trên bảng xếp hạng mang lại những rủi ro riêng.

Như chiến lược gia AI Nate Jones đã lưu ý trước đây, “thời điểm chúng ta đặt mục tiêu thống trị bảng xếp hạng, chúng ta có nguy cơ tạo ra các mô hình vượt trội trong các bài tập tầm thường và bối rối khi đối mặt với thực tế”. Mục đích của Moonshot là chứng minh những chiến thắng trong tiêu chuẩn của mình sẽ chuyển thành tiện ích cần thiết trong thế giới thực để giành lại thị phần.

[nội dung nhúng]

Cuộc đua toàn cầu về quyền lực tối cao của tác nhân

Nỗ lực mới nhất của Moonshot là một phần của sự thay đổi cơ bản toàn cầu trong ngành AI. Các công ty đang vượt xa các chatbot chỉ đơn giản tạo ra các đề xuất văn bản hoặc mã.

Biên giới mới của nó là trí tuệ nhân tạo: tạo ra các hệ thống tự động có thể hiểu mục tiêu cấp cao, lập kế hoạch và sử dụng nhiều công cụ kỹ thuật số để thực hiện mục tiêu đó. Kimi K2 Thought được thiết kế rõ ràng để cạnh tranh trong lĩnh vực này.

Giá trị của phương pháp tiếp cận tác nhân này đã được chứng minh trong thế giới doanh nghiệp. Trong một động thái mang tính bước ngoặt, ngân hàng đầu tư Goldman Sachs đã bắt đầu thí điểm Devin, lập trình viên AI tự trị để tạo ra một “lực lượng lao động kết hợp”. Tầm nhìn của nó là để các kỹ sư con người giám sát các nhóm tác nhân AI, thay đổi bản chất của việc phát triển phần mềm.

Giám đốc công nghệ của Goldman, Marco Argenti, giải thích chiến lược này và nói rằng:”Nó thực sự là về con người và AI làm việc cùng nhau. Các kỹ sư sẽ có khả năng mô tả vấn đề một cách thực sự mạch lạc và biến nó thành những lời nhắc…”

Sự thay đổi như vậy phản ánh một tương lai nơi kỹ năng cơ bản của con người không phải là thực hiện tẻ nhạt mà là xác định vấn đề ở cấp độ cao và giám sát.

Bằng cách xây dựng một mô hình vượt trội trong việc sử dụng công cụ phức tạp, nhiều bước, Moonshot AI đang tự định vị mình là nhân tố chủ chốt trong mô hình mới này. Với Kimi K2 Thought, công ty đang đặt cược lớn rằng trong một thế giới tràn ngập các mô hình mạnh mẽ, mô hình nào có thể suy luận hiệu quả nhất cuối cùng sẽ giành chiến thắng trong hệ sinh thái nhà phát triển.

Điểm chuẩn Kimi K2

LiveCodeBench v6

Pass@1 53,7 46,9 37,0 48,5 47,4 44,7 44,7 Pass@1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Pass@1 85,7 83,1 78,2 88,6 89,6 86,7 85,6

SWE-bench được xác minh

Bản vá đơn không cần kiểm tra (Acc) 51,8 36,6 39,4 50,2 53,0 40,8 32,6

Đã xác minh băng ghế dự bị SWE

Một lần thử (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Nhiều lần thử (Acc) 71,6 — — 80,2* 79,4* — —

SWE-bench Đa ngôn ngữ

Lần thử duy nhất (Acc) 47,3 25,8 20,9 51,0 — 31,5 —

TerminalBench

Khung nội bộ (Acc) 30,0 — — 35,5 43,2 8,3 — Ga cuối (Acc) 25,0 16,3 6,6 — — 30,3 16,8

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Bán lẻ Tau2

Avg@4 70,6 69,1 57,0 75,0 81,8 74,8 64,3

Hãng hàng không Tau2

Avg@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 viễn thông

Trung bình 65,8 32,5 22,1 45,2 57,0 38,6 16,9 Acc 76,5 72,7 70,5 76,2 75,6 80,1 74,5 Trung bình@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Trung bình@64 49,5 46,7 24,7* 33,1* 33,9* 37,0 46,6 Acc 97,4 94,0* 91,2* 94,0 94,4 92,4 95,4 Trung bình@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Trung bình@16 74,3 74,7 48,6 60,4 57,6 56,6 75,0

PolyMath-en

Trung bình@4 65,1 59,5 51,9 52,8 49,8 54,0 49,9

ZebraLogic

Acc 89,0 84,0 37,7* 79,7 59,3 58,5 57,9 Acc 89,5 88,9 83,3* 89,8 86,1 88,2 84,1

GPQA-Diamond

Trung bình@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5 50,8 49,6

Kỳ thi cuối cùng của nhân loại

Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,2* 93,6 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Nhắc nghiêm ngặt 89,8 81,1 83,2* 87,6 87,4 88,0 84,3

Nhiều thử thách

Acc 54,1 31,4 34,0 46,8 49,0 36,4 39,5 Đúng 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 74,6 69,8  

(Nguồn: Moonshot AI)

Categories: IT Info