中國人工智能公司Moonshot AI推出了一個名為Kimi K2 Thinking的新開源模型。它於 11 月 6 日在北京基地推出,標誌著全球構建可獨立行動的人工智能競賽的重要一步。

該模型是一個“思考代理”。它可以通過使用數字工具解決數百個步驟的難題。 Moonshot希望在中國嚴峻的人工智能市場中擊敗競爭對手。

繼萬億參數Kimi K2和Kimi K2 Turbo模型之後,這個新版本專注於高級推理,並在行業測試中取得了最高分。

專為複雜推理和工具使用而打造的“思維代理”

在北京總部,Moonshot AI 又在人工智能領域大展拳腳。

該公司將 Kimi K2 Thinking 定位為不僅僅是升級版,而是專注於自主執行的新型模型。它被設計為能夠逐步推理來解決複雜問題的“思維代理”。

該公司強調的一項關鍵功能是能夠執行 200 到 300 個連續工具調用,使其能夠在無需人工干預的情況下完成複雜的多階段任務。

與專注於原始速度的前身 Kimi K2 Turbo 不同,這個新版本優先考慮認知深度。其底層架構仍然是一個龐大的萬億參數混合專家(MoE)模型,為任何給定的代幣激活 320 億個參數。

根據官方模型卡,它具有擴展的 256K 上下文長度。這個巨大的窗口使其能夠一次處理和分析整個代碼庫或數百頁文檔,這是複雜企業任務的一個關鍵功能。

一項重大的技術創新是其原生 INT4 量化,這是通過一種稱為量化感知訓練 (QAT) 的方法實現的。 這使得模型能夠以較低精度的計算運行,有效地使其推理速度加倍,同時保持其高精度模型的性能。

對於開發人員來說,這使得部署萬億參數模型在計算上更加可行且更具成本效益,從而降低了採用的主要障礙。

Moonshot 報告稱,Kimi K2 Thinking 在 Humanity 的期末考試(使用工具)中獲得了 44.9 分,這是一項專家級知識測試。在 BrowseComp 等代理搜索和瀏覽任務上,它得分為 60.2,在代理編碼測試 SWE-Bench Verified 上,它達到了 71.3。 (請參閱最後的完整基準表)

這些結果使其處於專為代理能力而設計的開源模型的前沿。

中國激烈的人工智能戰爭中的戰略策略

發布 Kimi K2 Thinking 是中國競爭異常激烈的人工智能市場中經過深思熟慮的舉動,通常被稱為“百人大戰”

Moonshot AI,曾經的後起之秀,面臨來自 DeepSeek、Z.ai、阿里巴巴等國內競爭對手的巨大壓力。這種新模式是通過將競爭焦點從速度和價格轉向複雜的推理和代理性能來重新奪回領導地位的直接嘗試。

這一轉變是在公司經歷了一個充滿挑戰的時期之後發生的。其最初的 Kimi K2 型號於 7 月推出,是一次大膽的開源嘗試。

然而,市場很快就因低成本替代品而飽和,尤其是來自競爭對手 DeepSeek 的替代品,從而引發了激烈的價格戰。這直接影響了Moonshot的Kimi聊天應用程序的用戶群,該應用程序的國內排名出現下滑。

來自Statcounter的2025年10月最新數據證實了激烈的競爭,顯示Moonshot目前並未躋身中國排名第一的人工智能聊天機器人提供商之列。

Moonshot正在押注與僅靠成本競爭相比,新興代理人工智能領域的卓越能力可以建立更穩固的市場地位。然而,這種對排行榜表現的強烈關注也有其自身的風險。

正如人工智能策略師 Nate Jones 之前指出的那樣,“當我們將排行榜主導地位作為目標時,我們就冒著創建在瑣碎練習中表現出色而在面對現實時陷入困境的模型的風險。” Moonshot 旨在證明其基準勝利能夠轉化為贏回市場份額所需的現實實用性。

[嵌入內容]

代理霸權的全球競賽

Moonshot 的最新努力是人工智能行業全球根本性轉變的一部分。公司正在超越僅生成文本或代碼建議的聊天機器人。

其新領域是代理智能:創建能夠理解高級目標、制定計劃並使用各種數字工具來執行的自主系統。 Kimi K2 Thinking 的設計初衷就是為了在這個領域展開競爭。

這種代理方法的價值已經在企業界得到了證明。投資銀行高盛開始試點自主人工智能編碼器 Devin,以創建“混合勞動力”,這是一項具有里程碑意義的舉措。它的願景是讓人類工程師監督人工智能代理團隊,改變軟件開發的性質。

高盛的技術主管 Marco Argenti 解釋了這一戰略,他說:“這實際上是關於人和人工智能並肩工作。工程師將被期望有能力以連貫的方式真正描述問題並將其轉化為提示……”

這種轉變反映了未來,人類的主要技能不是乏味的執行,而是高水平的技能。問題定義和監督。

通過構建擅長複雜、多步驟工具使用的模型,Moonshot AI 將自己定位為這一新範式的關鍵參與者。借助 Kimi K2 Thinking,該公司正在進行一場高風險的賭注,即在一個充斥著強大模型的世界中,能夠最有效地進行推理的模型將最終贏得開發者生態系統。

Kimi K2 基準

LiveCodeBench v6

Pass@1 53.7 46.9 37.0 48.5 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6

SWE-bench 驗證

未經測試的單個補丁 (Acc) 51.8 36.6 39.4 50.2 53.0 40.8 32.6

SWE-bench 已驗證

單次嘗試 (Acc) 65.8 38.8 34.4 72.7* 72.5* 54.6 — 多次嘗試 (Acc) 71.6 — — 80.2* 79.4* — —

SWE-bench 多語言

單次嘗試 (Acc) 47.3 25.8 20.9 51.0 — 31.5 —

TerminalBench

內部框架 (Acc) 30.0 — — 35.5 43.2 8.3 — 終點 (Acc) 25.0 16.3 6.6 — — 30.3 16.8

Aider 多語言

Acc 60.0 55.1 61.8 56.4 70.7 52.4 44.0

Tau2 零售

Avg@4 70.6 69.1 57.0 75.0 81.8 74.8 64.3

Tau2 航空公司

Avg@4 56.5 39.0 26.5 55.5 60.0 54.5 42.5

Tau2 電信

Avg@4 65.8 32.5 22.1 45.2 57.0 38.6 16.9 Acc 76.5 72.7 70.5 76.2 75.6 80.1 74.5 平均值@64 69.6 59.4* 40.1* 43.4 48.2 46.5 61.3 平均值@64 49.5 46.7 24.7* 33.1* 33.9* 37.0 46.6 加速 97.4 94.0* 91.2* 94.0 94.4 92.4 95.4 平均@32 38.8 27.5 11.9 15.9 15.9 19.4 34.7 平均@16 74.3 74.7 48.6 60.4 57.6 56.6 75.0

PolyMath-en

平均@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9

ZebraLogic

Acc 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 Acc 89.5 88.9 83.3* 89.8 86.1 88.2 84.1

GPQA-鑽石

Avg@8 75.1 68.4* 62.9* 70.0* 74.9* 66.3 68.2 Acc 57.2 53.7 50.2 55.7 56.5 50.8 49.6

人類最後的考試

Acc 4.7 5.2 5.7 5.8 7.1 3.7 5.6 新興市場 89.5 89.4 87.0 91.5 92.9 90.4 90.1

MMLU-Redux

新興市場 92.7 90.5 89.2* 93.6 94.2 92.4 90.6 新興市場 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 提示嚴格 89.8 81.1 83.2* 87.6 87.4 88.0 84.3

多重挑戰

Acc 54.1 31.4 34.0 46.8 49.0 36.4 39.5 正確 31.0 27.7 13.2 15.9 22.8 42.3 23.3 Pass@1 76.4 72.4 67.6 74.8 74.6 69.8  

(來源:Moonshot AI)

Categories: IT Info