En nyckelförmåga som lyfts fram av företaget är dess förmåga att utföra mellan 200 och 300 sekventiella verktygsanrop, vilket gör det möjligt för det att slutföra intrikata, flerstegsuppgifter utan mänskligt ingripande.
Unlike, som Kimi Körw, som har fokuserat på sin verksamhet. hastighet, den här nya versionen prioriterar kognitivt djup. Dess underliggande arkitektur förblir en massiv en-biljon-parameters Mixture-of-Experts (MoE)-modell, som aktiverar 32 miljarder parametrar för en given token.
Enligt official it-kontexten har 2 K-modellen längd an. Detta enorma fönster gör att den kan bearbeta och analysera hela kodbaser eller hundratals sidor med dokument i en enda gång, en avgörande funktion för komplexa företagsuppgifter.
En betydande teknisk innovation är dess ursprungliga INT4-kvantisering, som uppnås genom en metod som kallas Quantization-Aware Training (QAT). Detta gör att modellen kan köras med beräkningar med lägre precision, vilket i praktiken fördubblar dess slutledningshastighet samtidigt som prestandan hos dess motsvarigheter med högre precision bibehålls.
För utvecklare gör detta att distribuera en biljonparametermodell mer beräkningsmässigt genomförbar och kostnadseffektiv, vilket minskar en stor barriär för adoption.
Monshot scored på Kimi K44’s9 Thinking on Humanity. Tentamen (med verktyg), ett test av kunskaper på expertnivå. På agentsök-och surfuppgifter som BrowseComp fick den 60,2 och på agentkodningstestet SWE-Bench Verified nådde den 71,3. (se den fullständiga riktmärkestabellen i slutet)
Dessa resultat placerar den i gränsen för modeller med öppen källkod utformade för agentskap.
A Strategic Gambit in China’s Fierce AI Wars
Att släppa Kimi K2 Thinking in China’s petite hyper-competiting is a dubb AI-marknaden ofta beräknad.”krig av hundra modeller.”
Moonshot AI, en gång en stigande stjärna, har mött intensiv press från inhemska rivaler som DeepSeek, Z.ai och Alibaba. Den här nya modellen är ett direkt försök att återta ledarskapet genom att flytta konkurrensfokus från hastighet och pris till sofistikerade resonemang och agentprestanda.
Denna nyckel kommer efter en utmanande period för företaget. Dess ursprungliga Kimi K2-modell, som lanserades i juli, var ett djärvt spel med öppen källkod.
Men marknaden blev snabbt mättad med lågkostnadsalternativ, särskilt från rivalen DeepSeek, som utlöste ett hårt priskrig. Detta påverkade direkt användarbasen av Moonshots Kimi-chattapplikation, som fick sin inhemska rankingglidning.
Färsk data för oktober 2025 från Statcounter bekräftar den hårda konkurrensen, vilket visar att Moonbot-leverantörerna för närvarande inte är rankade i Kina.
Moonshot satsar på att överlägsen kapacitet inom det framväxande området för agent AI kan bygga en mer försvarbar marknadsposition än att konkurrera på enbart kostnad. Detta intensiva fokus på resultattavlan medför dock sina egna risker.
Som AI-strateg Nate Jones tidigare noterade,”i det ögonblick vi sätter ledartavlans dominans som mål, riskerar vi att skapa modeller som utmärker sig i triviala övningar och flåsar när vi står inför verkligheten.”Moonshot strävar efter att bevisa att sina benchmarkvinster översätts till det verkliga verktyget som behövs för att vinna tillbaka marknadsandelar.
[inbäddat innehåll]
The Global Race for Agentic Supremacy
Moonshots senaste insats är en del av en grundläggande global förändring i AI-branschen. Företag går bortom chatbots som helt enkelt genererar text-eller kodförslag.
Dess nya gräns är agentintelligens: skapa autonoma system som kan förstå ett mål på hög nivå, formulera en plan och använda en mängd olika digitala verktyg för att utföra det. Kimi K2 Thinking är uttryckligen utformad för att konkurrera på denna arena.
Värdet av denna agent har redan bevisats i företagsvärlden. Som ett landmärke började investeringsbanken Goldman Sachs testa den autonoma AI-kodaren Devin för att skapa en”hybrid arbetsstyrka.”Dess vision är att mänskliga ingenjörer ska övervaka flottor av AI-agenter, förvandla karaktären av mjukvaruutveckling.
Goldmans tekniska chef, Marco Argenti, förklarade strategin och sa:”det handlar verkligen om att människor och AI:er arbetar sida vid sida. Ingenjörer förväntas ha förmågan att verkligen beskriva problem på ett snabbt sätt och omvandla det till ett snabbt sätt.”
speglar en framtid där den primära mänskliga färdigheten inte är tråkigt utförande utan problemdefinition och övervakning på hög nivå.
Genom att bygga en modell som utmärker sig vid komplex, flerstegsanvändning av verktyg, positionerar Moonshot AI sig för att vara en nyckelspelare i detta nya paradigm. Med Kimi K2 Thinking gör företaget en satsning på hög insats som i en värld full av kraftfulla modeller, den som kan resonera mest effektivt i slutändan kommer att vinna utvecklarens ekosystem.
Kimi K2 Benchmarks
[email protected]
48.5 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6
SWE-bänk Verifierad
Enkelförsök (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Flera försök 71,46cc — 71,46cc — 71,42* 71,42* — —
SWE-bänk Flerspråkig
Single Attempt (Acc) 47,3 25,8 20,9 51,0 — 31,5 —
TerminalBench
Inhouse Framework (Acc) 30,0 — — 35,5 43,2 8,3 — Terminus (Acc) — 6,5 (Acc).6 s. 30.3 16.8
Aider-Polyglot
Acc 60.0 55.1 61.8 56.4 70.7 52.4 44.0
Tau2 retail
Avg@4 70.6 69.1 57.0 75.0 48.au flygbolag
Avg@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5
Tau2 telecom
Avg@4 65,8 32,5 22,1 45,2 57,0 38,6 16,5 Acc 7 7 7. 75,6 80,1 74,5 Medel@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Medel@64 49,5 46,7 24,7* 33,1* 33,9* 37,0 Acc 49,0 91,2* 94,0 94,4 92,4 95,4 Avg@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Avg@16 74,3 74,7 48,6 60,4 57,6> Po. Avg@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9
ZebraLogic
Acc 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 Acc 89.8 8.9 89.8 8.9. 88,2 84,1
GPQA-Diamond
Avg@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5
Senaste 56,5 40. Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1
MMLU-Redux
EM 92,7 90,5 89,02*9 90,62*9. EM 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 Prompt Strict 89.8 81.1 83.2* 87.6 87.4 88.0 84.3
Multi-Challenge
1 Acc 40.4. 49,0 36,4 39,5 Korrekt 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 74,6 69,8
Källa: