中国の AI 企業 Moonshot AI は、Kimi K2 Thinking と呼ばれる新しいオープンソース モデルを開発しています。 11 月 6 日に北京の拠点から打ち上げられ、自律的に行​​動できる AI を開発する世界的な競争における大きな一歩を踏み出しました。

このモデルは「思考エージェント」です。デジタルツールを使用することで、何百ものステップを経て難しい問題を解決できます。 Moonshot は、中国の厳しい AI 市場でライバルに勝ちたいと考えています。

1 兆パラメータの Kim K2 モデルと Kim K2 Turbo モデルに続き、この新しいバージョンは高度な推論に焦点を当てており、業界テストで最高のスコアを獲得しています。

複雑な推論とツールの使用のために構築された「思考エージェント」

Moonshot AI は北京本社で、AI 分野で再び積極的な取り組みを行っています。

同社は、Kimi K2 Thinking を単なるアップグレードではなく、自律的な実行に焦点を当てた新しいクラスのモデルとして位置づけています。これは、複雑な問題を解決するための段階的な推論が可能な「思考エージェント」として設計されています。

同社が強調している重要な機能は、200 ~ 300 回の連続したツール呼び出しを実行する能力であり、人間の介入なしに複雑な複数段階のタスクを完了できます。

素の速度に重点を置いた前バージョンの Kim K2 Turbo とは異なり、この新しいリリースは認知の深さを優先しています。その基礎となるアーキテクチャは、依然として大規模な 1 兆パラメータの Mixture-of-Experts (MoE) モデルであり、任意のトークンに対して 320 億のパラメータを有効にします。

公式モデル カードによると、拡張された 256K コンテキスト長を特徴としています。この巨大なウィンドウにより、コードベース全体または数百ページのドキュメントを 1 回のパスで処理および分析できます。これは、複雑な企業タスクにとって重要な機能です。

重要な技術革新は、量子化対応トレーニング (QAT) と呼ばれる方法を通じて実現されるネイティブ INT4 量子化です。 これにより、モデルは低精度の計算で実行できるようになり、高精度のモデルのパフォーマンスを維持しながら、推論速度が効果的に 2 倍になります。

開発者にとって、これにより、1 兆パラメータのモデルの導入が計算上より実現可能になり、コスト効率が高くなり、導入への大きな障壁が下がります。

ムーンショット報告によると、専門家レベルのテストである人類最後の試験 (ツール使用) で、Kimi K2 Thinking は 44.9 点を獲得しました。知識。 BrowseComp などのエージェント検索およびブラウジング タスクでは 60.2 のスコアを獲得し、エージェント コーディング テストである SWE-Bench Verified では 71.3 に達しました。 (末尾の完全なベンチマーク表を参照してください)

これらの結果は、エージェント機能向けに設計されたオープンソース モデルの最前線に位置します。

中国の熾烈な AI 戦争における戦略的賭け

Kimi K2 のリリース 思考は、「百戦錬磨」とも呼ばれる中国の競争の激しい AI 市場における計算された動きです。

Moonshot AI は、かつては新星でしたが、DeepSeek、Z.ai、Alibaba などの国内のライバルからの激しい圧力に直面してきました。この新しいモデルは、競争の焦点をスピードと価格から洗練された推論とエージェントのパフォーマンスに移すことで、リーダーシップを取り戻す直接的な試みです。

この転換は、同社にとって困難な時期を経て行われました。 7 月に発売されたオリジナルの Kim K2 モデルは、大胆なオープンソース戦略でした。

しかし、市場はすぐに低コストの代替品、特にライバルの DeepSeek の製品で飽和状態になり、激しい価格競争を引き起こしました。これは、Moonshot の Kimi チャット アプリケーションのユーザー ベースに直接影響を及ぼし、国内ランキングが下落しました。

Statcounter の 2025 年 10 月の最新データでは、Moonshot が現在中国でトップランクの AI チャットボット プロバイダーに入っていないことが示されています。

エージェント AI の新興分野における優れた機能により、コストだけで競争するよりも防御可能な市場地位を構築できると賭けています。ただし、リーダーボードのパフォーマンスに重点を置くことには、それ自体のリスクが伴います。

AI ストラテジストのネイト ジョーンズが以前述べたように、「リーダーボードでの優位性を目標に設定した瞬間に、些細な演習では優れたモデルを作成し、現実に直面すると苦戦するリスクがあります。」 Moonshot は、ベンチマークでの勝利が、市場シェアを取り戻すために必要な現実世界の有用性につながることを証明することを目指しています。

[埋め込みコンテンツ]

エージェントの覇権をめぐる世界的な競争

Moonshot の最新の取り組みは、AI 業界における根本的な世界的変化の一部です。企業は、テキストやコードの提案を生成するだけのチャットボットを超えて進んでいます。

その新しいフロンティアはエージェント インテリジェンスです。つまり、高レベルの目標を理解し、計画を策定し、それを実行するためにさまざまなデジタル ツールを使用できる自律システムを作成します。 Kimi K2 Thinking は、この分野で競争できるように明確に設計されています。

このエージェント的アプローチの価値は、企業の世界ですでに証明されています。画期的な動きとして、投資銀行ゴールドマン・サックスは、「ハイブリッドな労働力」を生み出すために自律型 AI プログラマー Devin の試験運用を開始しました。そのビジョンは、人間のエンジニアが AI エージェントのフリートを監督し、ソフトウェア開発の性質を変えることです。

ゴールドマンの技術責任者であるマルコ・アルジェンティ氏は、この戦略について次のように説明しました。「これは実際に人間と AI が協力して働くことです。エンジニアには、問題を一貫した方法で説明し、それをプロンプトに変換する能力が期待されます…」

このような変化は、人間の主要なスキルが重要ではなくなる未来を反映しています。

Moonshot AI は、複雑な複数ステップのツールの使用に優れたモデルを構築することで、この新しいパラダイムの主要なプレーヤーとしての地位を確立しています。同社は Kim K2 Thinking により、強力なモデルがあふれる世界の中で、最も効果的に推論できるモデルが最終的に開発者エコシステムを獲得するという一か八かの賭けをしています。

Kim K2 ベンチマーク

LiveCodeBench v6

Pass@1 53.7 46.9 37.0 48.5 47.4 44.7 44.7 合格@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 合格@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6

SWE ベンチ検証済み

テストなしの単一パッチ (Acc) 51.8 36.6 39.4 50.2 53.0 40.8 32.6

SWE ベンチ検証済み

1 回の試行 (Acc) 65.8 38.8 34.4 72.7* 72.5* 54.6 — 複数の試行 (Acc) 71.6 — — 80.2* 79.4* — —

SWE ベンチ多言語

シングル試行 (Acc) 47.3 25.8 20.9 51.0 — 31.5 —

ターミナルベンチ

社内フレームワーク (Acc) 30.0 — — 35.5 43.2 8.3 — ターミナル (Acc) 25.0 16.3 6.6 — — 30.3 16.8

Aider-Polyglot

ACC 60.0 55.1 61.8 56.4 70.7 52.4 44.0

Tau2 小売

平均@4 70.6 69.1 57.0 75.0 81.8 74.8 64.3

Tau2 航空会社

平均@4 56.5 39.0 26.5 55.5 60.0 54.5 42.5

Tau2 テレコム

平均@4 65.8 32.5 22.1 45.2 57.0 38.6 16.9 精度 76.5 72.7 70.5 76.2 75.6 80.1 74.5平均@64 69.6 59.4* 40.1* 43.4 48.2 46.5 61.3 平均@64 49.5 46.7 24.7* 33.1* 33.9* 37.0 46.6 加速度 97.4 94.0* 91.2* 94.0 94.4 92.4 95.4 平均@32 38.8 27.5 11.9 15.9 15.9 19.4 34.7 平均@16 74.3 74.7 48.6 60.4 57.6 56.6 75.0

PolyMath-en

平均@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9

ZebraLogic

精度 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 精度 89.5 88.9 83.3* 89.8 86.1 88.2 84.1

GPQA-Diamond

平均@8 75.1 68.4* 62.9* 70.0* 74.9* 66.3 68.2 精度 57.2 53.7 50.2 55.7 56.5 50.8 49.6

人類最後の試験

精度 4.7 5.2 5.7 5.8 7.1 3.7 5.6 EM 89.5 89.4 87.0 91.5 92.9 90.4 90.1

MMLU-Redux

EM 92.7 90.5 89.2* 93.6 94.2 92.4 90.6 EM 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 プロンプト・ストリクト 89.8 81.1 83.2* 87.6 87.4 88.0 84.3

マルチチャレンジ

アクセシビリティ 54.1 31.4 34.0 46.8 49.0 36.4 39.5 正解 31.0 27.7 13.2 15.9 22.8 42.3 23.3 合格@1 76.4 72.4 67.6 74.8 74.6 69.8

(出典: Moonshot AI)

Categories: IT Info