Das chinesische KI-Unternehmen Moonshot AI hat ein neues Open-Source-Modell namens Kimi K2 Thinking. Es wurde am 6. November von seinem Stützpunkt in Peking aus gestartet und markiert einen großen Schritt im globalen Wettlauf um die Entwicklung eigenständig agierender KI.

Das Modell ist ein „denkender Agent“. Es kann schwierige Probleme lösen, indem es digitale Werkzeuge in Hunderten von Schritten nutzt. Moonshot will seine Konkurrenten auf Chinas hartem KI-Markt schlagen.

Nach den Billionen-Parameter-Modellen Kimi K2 und Kimi K2 Turbo konzentriert sich diese neue Version auf High-Level-Argumentation und erzielt Spitzenwerte bei Branchentests.

Das Unternehmen hat Kimi K2 Thinking nicht nur als Upgrade positioniert, sondern als eine neue Modellklasse, die sich auf die autonome Ausführung konzentriert. Es ist als „denkender Agent“ konzipiert, der in der Lage ist, Schritt für Schritt zu argumentieren, um komplexe Probleme zu lösen.

Eine wichtige Fähigkeit, die das Unternehmen hervorhebt, ist seine Fähigkeit, zwischen 200 und 300 aufeinanderfolgende Werkzeugaufrufe auszuführen, wodurch es komplizierte, mehrstufige Aufgaben ohne menschliches Eingreifen erledigen kann.

Im Gegensatz zu seinem Vorgänger, Kimi K2 Turbo, der sich auf pure Geschwindigkeit konzentrierte, legt diese neue Version Wert auf kognitive Tiefe. Seine zugrunde liegende Architektur bleibt ein riesiges Mixture-of-Experts-Modell (MoE) mit einer Billion Parametern, das 32 Milliarden Parameter für jeden gegebenen Token aktiviert.

Laut der offiziellen Modellkarte verfügt es über eine erweiterte Kontextlänge von 256 KB. Dieses riesige Fenster ermöglicht die Verarbeitung und Analyse ganzer Codebasen oder Hunderter Seiten von Dokumenten in einem einzigen Durchgang, eine entscheidende Funktion für komplexe Unternehmensaufgaben.

Eine bedeutende technische Innovation ist die native INT4-Quantisierung, die durch eine Methode namens Quantization-Aware Training (QAT) erreicht wird. Dadurch kann das Modell mit Berechnungen mit geringerer Präzision ausgeführt werden, was seine Inferenzgeschwindigkeit effektiv verdoppelt und gleichzeitig die Leistung seiner höherpräzisen Gegenstücke beibehält.

Für Entwickler wird die Bereitstellung eines Billionen-Parameter-Modells rechnerisch durchführbarer und kostengünstiger, wodurch eine große Hürde für die Einführung gesenkt wird.

Moonshot berichtet, dass Kimi K2 Thinking beim Humanity’s Last Exam (mit Tools), einem Test des Wissens auf Expertenebene, 44,9 Punkte erzielt hat. Bei Agenten-Such-und Browsing-Aufgaben wie BrowseComp erreichte es 60,2 und beim Agenten-Codierungstest SWE-Bench Verified erreichte es 71,3. (Siehe die vollständige Benchmark-Tabelle am Ende)

Diese Ergebnisse platzieren es an der Spitze der Open-Source-Modelle, die für Agentenfunktionen entwickelt wurden.

Ein strategischer Schachzug in Chinas erbitterten KI-Kriegen

Die Veröffentlichung von Kimi K2 Thinking ist ein kalkulierter Schachzug auf Chinas hart umkämpftem KI-Markt, der oft als „Krieg der hundert Modelle“ bezeichnet wird.

Moonshot AI, einst ein aufstrebender Stern, stand unter starkem Druck von inländischen Konkurrenten wie DeepSeek, Z.ai und Alibaba. Dieses neue Modell ist ein direkter Versuch, die Führung zurückzugewinnen, indem der Wettbewerbsschwerpunkt von Geschwindigkeit und Preis auf ausgefeilte Argumentation und Agentenleistung verlagert wird.

Diese Wende erfolgt nach einer herausfordernden Zeit für das Unternehmen. Sein ursprüngliches Modell Kimi K2, das im Juli auf den Markt kam, war ein mutiges Open-Source-Spiel.

Der Markt wurde jedoch schnell mit kostengünstigen Alternativen gesättigt, insbesondere vom Konkurrenten DeepSeek, was einen heftigen Preiskampf auslöste. Dies wirkte sich direkt auf die Nutzerbasis der Kimi-Chat-Anwendung von Moonshot aus, deren inländisches Ranking abrutschte.

Neue Daten für Oktober 2025 von Statcounter bestätigen die starke Konkurrenz und zeigen, dass Moonshot derzeit nicht zu den bestplatzierten KI-Chatbot-Anbietern in China gehört.

Moonshot geht davon aus, dass überlegene Fähigkeiten im aufstrebenden Bereich der Agenten-KI eine vertretbarere Marktposition aufbauen können, als wenn man nur über die Kosten konkurriert. Allerdings birgt dieser intensive Fokus auf die Leistung in der Bestenliste seine eigenen Risiken.

Wie der KI-Stratege Nate Jones zuvor bemerkte: „In dem Moment, in dem wir uns die Dominanz in der Bestenliste zum Ziel setzen, laufen wir Gefahr, Modelle zu schaffen, die sich in trivialen Übungen auszeichnen und angesichts der Realität scheitern.“ Moonshot möchte beweisen, dass seine Benchmark-Siege in den realen Nutzen umgesetzt werden, der zur Rückgewinnung von Marktanteilen erforderlich ist.

[eingebetteter Inhalt]

Der globale Wettlauf um die Vorherrschaft der Agenten

Moonshots jüngste Bemühungen sind Teil eines grundlegenden globalen Wandels in der KI-Branche. Unternehmen gehen über Chatbots hinaus, die lediglich Text-oder Codevorschläge generieren.

Ihr neues Feld ist die Agentische Intelligenz: die Schaffung autonomer Systeme, die ein übergeordnetes Ziel verstehen, einen Plan formulieren und eine Vielzahl digitaler Tools verwenden können, um es auszuführen. Kimi K2 Thinking ist ausdrücklich darauf ausgelegt, in diesem Bereich zu konkurrieren.

Der Wert dieses Agentenansatzes hat sich bereits in der Unternehmenswelt bewährt. In einem bahnbrechenden Schritt begann die Investmentbank Goldman Sachs mit der Pilotierung des autonomen KI-Programmierers Devin, um eine „hybride Belegschaft“ zu schaffen. Seine Vision besteht darin, dass menschliche Ingenieure Flotten von KI-Agenten überwachen und so die Natur der Softwareentwicklung verändern.

Goldmans Technologiechef Marco Argenti erklärte die Strategie mit den Worten: „Es geht wirklich darum, dass Menschen und KI Seite an Seite arbeiten. Von Ingenieuren wird erwartet, dass sie die Fähigkeit haben, Probleme wirklich kohärent zu beschreiben und sie in Aufforderungen umzuwandeln…“

Ein solcher Wandel spiegelt eine Zukunft wider, in der die primäre menschliche Fähigkeit nicht ermüdend ist Ausführung, aber Problemdefinition und-überwachung auf hohem Niveau.

Durch die Entwicklung eines Modells, das sich durch die Verwendung komplexer, mehrstufiger Werkzeuge auszeichnet, positioniert sich Moonshot AI als Schlüsselakteur in diesem neuen Paradigma. Mit Kimi K2 Thinking geht das Unternehmen eine riskante Wette ein, dass in einer Welt voller leistungsstarker Modelle dasjenige, das am effektivsten argumentieren kann, letztendlich das Entwickler-Ökosystem gewinnen wird.

Kimi K2 Benchmarks

LiveCodeBench v6

Pass@1 53,7 46,9 37,0 48,5 47,4 44,7 44,7 Bestanden@1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Bestanden@1 85,7 83,1 78,2 88,6 89,6 86,7 85,6

SWE-Bench verifiziert

Einzelpatch ohne Test (Acc) 51,8 36,6 39,4 50,2 53,0 40,8 32,6

SWE-Bench verifiziert

Einzelversuch (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 – Mehrere Versuche (Acc) 71,6 – – 80,2* 79,4* – –

SWE-Bench mehrsprachig

Einzel Versuch (Acc) 47,3 25,8 20,9 51,0 – 31,5 –

TerminalBench

Inhouse Framework (Acc) 30,0 – – 35,5 43,2 8,3 – Terminus (Acc) 25,0 16,3 6,6 – – 30,3 16,8

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Tau2 Retail

Avg@4 70,6 69,1 57,0 75,0 81,8 74,8 64,3

Tau2 Airlines

Avg@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telecom

Durchschn.@4 65,8 32,5 22,1 45,2 57,0 38,6 16,9 Acc 76,5 72,7 70,5 76,2 75,6 80,1 74,5 Durchschn. bei 64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Durchschn. bei 64 49,5 46,7 24,7* 33,1* 33,9* 37,0 46,6 Acc 97,4 94,0* 91,2* 94,0 94,4 92,4 95,4 Avg@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Avg@16 74,3 74,7 48,6 60,4 57,6 56,6 75,0

PolyMath-en

Avg@4 65,1 59,5 51,9 52,8 49,8 54,0 49,9

ZebraLogic

Acc 89,0 84,0 37,7* 79,7 59,3 58,5 57,9 Acc 89,5 88,9 83,3* 89,8 86,1 88,2 84,1

GPQA-Diamond

Avg@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5 50,8 49,6

Humanity’s Last Exam

Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,2* 93,6 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Prompt Strict 89,8 81,1 83,2* 87,6 87,4 88,0 84,3

Multi-Challenge

Acc 54,1 31,4 34,0 46,8 49,0 36,4 39,5 Richtig 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 74,6 69,8  

(Quelle: Moonshot AI)

Categories: IT Info