Kinesiska AI-företaget Moonshot AI har en ny öppen källkodsmodell som heter Kimi K2 Thinking. Den lanserades den 6 november från sin bas i Peking och markerar ett stort steg i den globala kapplöpningen att bygga AI som kan agera på egen hand.

Modellen är en”tänkande agent.”Det kan lösa svåra problem genom att använda digitala verktyg över hundratals steg. Moonshot vill slå sina rivaler på Kinas tuffa AI-marknad.

Efter biljonparametern Kimi K2 och Kimi K2 Turbo-modellerna fokuserar den här nya versionen på resonemang på hög nivå och har toppbetyg i branschtester.

En”Tänkande Agent”byggd för komplexa resonemang och verktygsanvändning

Från sitt huvudkontor i Peking gör Moonshot AI ännu ett aggressivt spel inom AI-sektorn.

Företaget har

En nyckelförmåga som lyfts fram av företaget är dess förmåga att utföra mellan 200 och 300 sekventiella verktygsanrop, vilket gör det möjligt för det att slutföra intrikata, flerstegsuppgifter utan mänskligt ingripande.

Unlike, som Kimi Körw, som har fokuserat på sin verksamhet. hastighet, den här nya versionen prioriterar kognitivt djup. Dess underliggande arkitektur förblir en massiv en-biljon-parameters Mixture-of-Experts (MoE)-modell, som aktiverar 32 miljarder parametrar för en given token.

Enligt official it-kontexten har 2 K-modellen längd an. Detta enorma fönster gör att den kan bearbeta och analysera hela kodbaser eller hundratals sidor med dokument i en enda gång, en avgörande funktion för komplexa företagsuppgifter.

En betydande teknisk innovation är dess ursprungliga INT4-kvantisering, som uppnås genom en metod som kallas Quantization-Aware Training (QAT). Detta gör att modellen kan köras med beräkningar med lägre precision, vilket i praktiken fördubblar dess slutledningshastighet samtidigt som prestandan hos dess motsvarigheter med högre precision bibehålls.

För utvecklare gör detta att distribuera en biljonparametermodell mer beräkningsmässigt genomförbar och kostnadseffektiv, vilket minskar en stor barriär för adoption.

Monshot scored på Kimi K44’s9 Thinking on Humanity. Tentamen (med verktyg), ett test av kunskaper på expertnivå. På agentsök-och surfuppgifter som BrowseComp fick den 60,2 och på agentkodningstestet SWE-Bench Verified nådde den 71,3. (se den fullständiga riktmärkestabellen i slutet)

Dessa resultat placerar den i gränsen för modeller med öppen källkod utformade för agentskap.

A Strategic Gambit in China’s Fierce AI Wars

Att släppa Kimi K2 Thinking in China’s petite hyper-competiting is a dubb AI-marknaden ofta beräknad.”krig av hundra modeller.”

Moonshot AI, en gång en stigande stjärna, har mött intensiv press från inhemska rivaler som DeepSeek, Z.ai och Alibaba. Den här nya modellen är ett direkt försök att återta ledarskapet genom att flytta konkurrensfokus från hastighet och pris till sofistikerade resonemang och agentprestanda.

Denna nyckel kommer efter en utmanande period för företaget. Dess ursprungliga Kimi K2-modell, som lanserades i juli, var ett djärvt spel med öppen källkod.

Men marknaden blev snabbt mättad med lågkostnadsalternativ, särskilt från rivalen DeepSeek, som utlöste ett hårt priskrig. Detta påverkade direkt användarbasen av Moonshots Kimi-chattapplikation, som fick sin inhemska rankingglidning.

Färsk data för oktober 2025 från Statcounter bekräftar den hårda konkurrensen, vilket visar att Moonbot-leverantörerna för närvarande inte är rankade i Kina.

Moonshot satsar på att överlägsen kapacitet inom det framväxande området för agent AI kan bygga en mer försvarbar marknadsposition än att konkurrera på enbart kostnad. Detta intensiva fokus på resultattavlan medför dock sina egna risker.

Som AI-strateg Nate Jones tidigare noterade,”i det ögonblick vi sätter ledartavlans dominans som mål, riskerar vi att skapa modeller som utmärker sig i triviala övningar och flåsar när vi står inför verkligheten.”Moonshot strävar efter att bevisa att sina benchmarkvinster översätts till det verkliga verktyget som behövs för att vinna tillbaka marknadsandelar.

[inbäddat innehåll]

The Global Race for Agentic Supremacy

Moonshots senaste insats är en del av en grundläggande global förändring i AI-branschen. Företag går bortom chatbots som helt enkelt genererar text-eller kodförslag.

Dess nya gräns är agentintelligens: skapa autonoma system som kan förstå ett mål på hög nivå, formulera en plan och använda en mängd olika digitala verktyg för att utföra det. Kimi K2 Thinking är uttryckligen utformad för att konkurrera på denna arena.

Värdet av denna agent har redan bevisats i företagsvärlden. Som ett landmärke började investeringsbanken Goldman Sachs testa den autonoma AI-kodaren Devin för att skapa en”hybrid arbetsstyrka.”Dess vision är att mänskliga ingenjörer ska övervaka flottor av AI-agenter, förvandla karaktären av mjukvaruutveckling.

Goldmans tekniska chef, Marco Argenti, förklarade strategin och sa:”det handlar verkligen om att människor och AI:er arbetar sida vid sida. Ingenjörer förväntas ha förmågan att verkligen beskriva problem på ett snabbt sätt och omvandla det till ett snabbt sätt.”

speglar en framtid där den primära mänskliga färdigheten inte är tråkigt utförande utan problemdefinition och övervakning på hög nivå.

Genom att bygga en modell som utmärker sig vid komplex, flerstegsanvändning av verktyg, positionerar Moonshot AI sig för att vara en nyckelspelare i detta nya paradigm. Med Kimi K2 Thinking gör företaget en satsning på hög insats som i en värld full av kraftfulla modeller, den som kan resonera mest effektivt i slutändan kommer att vinna utvecklarens ekosystem.

Kimi K2 Benchmarks

[email protected]

48.5 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6

SWE-bänk Verifierad

Enkelförsök (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Flera försök 71,46cc — 71,46cc — 71,42* 71,42* — —

SWE-bänk Flerspråkig

Single Attempt (Acc) 47,3 25,8 20,9 51,0 — 31,5 —

TerminalBench

Inhouse Framework (Acc) 30,0 — — 35,5 43,2 8,3 — Terminus (Acc) — 6,5 (Acc).6 s. 30.3 16.8

Aider-Polyglot

Acc 60.0 55.1 61.8 56.4 70.7 52.4 44.0

Tau2 retail

Avg@4 70.6 69.1 57.0 75.0 48.au flygbolag

Avg@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telecom

Avg@4 65,8 32,5 22,1 45,2 57,0 38,6 16,5 Acc 7 7 7. 75,6 80,1 74,5 Medel@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Medel@64 49,5 46,7 24,7* 33,1* 33,9* 37,0 Acc 49,0 91,2* 94,0 94,4 92,4 95,4 Avg@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Avg@16 74,3 74,7 48,6 60,4 57,6> Po. Avg@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9

ZebraLogic

Acc 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 Acc 89.8 8.9 89.8 8.9. 88,2 84,1

GPQA-Diamond

Avg@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5

Senaste 56,5 40. Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,02*9 90,62*9. EM 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 Prompt Strict 89.8 81.1 83.2* 87.6 87.4 88.0 84.3

Multi-Challenge

1 Acc 40.4. 49,0 36,4 39,5 Korrekt 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 74,6 69,8  

Källa:

Categories: IT Info