Det kinesiske AI-firmaet Moonshot AI har en ny åpen kildekode-modell kalt Kimi K2 Thinking. Den ble lansert 6. november fra sin base i Beijing, og markerer et stort skritt i det globale kappløpet om å bygge AI som kan handle på egen hånd.

Modellen er en”tenkende agent.”Det kan løse vanskelige problemer ved å bruke digitale verktøy over hundrevis av trinn. Moonshot ønsker å slå sine rivaler i Kinas tøffe AI-marked.

Etter trillionparameteren Kimi K2 og Kimi K2 Turbo-modellene fokuserer denne nye versjonen på resonnement på høyt nivå og har toppscore på bransjetester.

En’tenkeagent’bygget for kompleks resonnement og verktøybruk

Fra hovedkvarteret i Beijing gjør Moonshot AI nok et aggressivt skuespill i AI-sektoren.

Selskapet har som en tenkende”target=”_blank”>oppgradering

for Kima> ny klasse modell fokusert på autonom utførelse. Den er utformet som en”tenkeagent”som er i stand til å resonnere trinn for trinn for å løse komplekse problemer.

En nøkkelfunksjon som fremheves av selskapet er dens evne til å utføre mellom 200 og 300 sekvensielle verktøyoppkall, slik at den kan fullføre intrikate, flertrinns oppgaver uten menneskelig innblanding. hastighet, prioriterer denne nye utgivelsen kognitiv dybde. Dens underliggende arkitektur forblir en massiv en-billion-parameter Mixture-of-Experts (MoE)-modell, som aktiverer 32 milliarder parametere for et gitt token.

I følge offisielle, har 2 K-modellen lengde kort an. Dette enorme vinduet lar den behandle og analysere hele kodebaser eller hundrevis av sider med dokumenter i en enkelt pass, en avgjørende funksjon for komplekse bedriftsoppgaver.

En betydelig teknisk innovasjon er dens opprinnelige INT4-kvantisering, oppnådd gjennom en metode kalt Quantization-Aware Training (QAT). Dette gjør det mulig for modellen å kjøre med lavere presisjonsberegninger, og effektivt doble inferenshastigheten samtidig som ytelsen til sine motparter med høyere presisjon opprettholdes.

For utviklere gjør dette distribusjon av en trillion-parameter modell mer beregningsmessig gjennomførbar og kostnadseffektiv, og senker en stor barriere for adopsjon.

Moonshot-rapporten Kimi K449 scoret på Kimi K449. Eksamen (med verktøy), en test av kunnskap på ekspertnivå. På agentsøk og nettlesingsoppgaver som BrowseComp fikk den 60,2, og på agentkodetesten SWE-Bench Verified nådde den 71,3. (se den fullstendige referansetabellen på slutten)

Disse resultatene plasserer den på grensen til åpen kildekode-modeller designet for agentegenskaper.

A Strategic Gambit in China’s Fierce AI Wars

Slippe Kimi K2 Thinking in China’s hyper-petit-tenking er ofte beregnet på hyper-AI-markedet. «krig av hundre modeller.»

Moonshot AI, en gang en stigende stjerne, har møtt intenst press fra innenlandske rivaler som DeepSeek, Z.ai og Alibaba. Denne nye modellen er et direkte forsøk på å gjenvinne lederskap ved å skifte konkurransefokus fra hastighet og pris til sofistikert resonnement og agentytelse.

Denne pivoten kommer etter en utfordrende periode for selskapet. Den originale Kimi K2-modellen, lansert i juli, var et dristig åpen kildekodespill.

Men markedet ble raskt mettet med lavkostalternativer, spesielt fra rivalen DeepSeek, som utløste en voldsom priskrig. Dette påvirket direkte brukerbasen til Moonshots Kimi-chatapplikasjon, som så dens innenlandske rangeringsslipp.

Ferske data for oktober 2025 fra Statcounter bekrefter den harde konkurransen, som viser at Moonbot-leverandørene for øyeblikket ikke er rangert blant chattene i Kina.

Moonshot satser på at overlegen kapasitet i det fremvoksende feltet av agent AI kan bygge en mer forsvarlig markedsposisjon enn å konkurrere på kostnader alene. Imidlertid har dette intense fokuset på resultattavlen sine egne risikoer.

Som AI-strateg Nate Jones tidligere sa,”i det øyeblikket vi setter ledertavlens dominans som målet, risikerer vi å skape modeller som utmerker seg i trivielle øvelser og flyndre når vi møter virkeligheten.”Moonshot har som mål å bevise at sine benchmark-gevinster oversettes til den virkelige verktøyet som trengs for å vinne tilbake markedsandeler.

[innebygd innhold]

The Global Race for Agentic Supremacy

Moonshots siste innsats er en del av et grunnleggende globalt skifte i AI-industrien. Bedrifter beveger seg forbi chatbots som ganske enkelt genererer tekst-eller kodeforslag.

Den nye grensen er agentintelligens: skaper autonome systemer som kan forstå et mål på høyt nivå, formulere en plan og bruke en rekke digitale verktøy for å utføre det. Kimi K2 Thinking er eksplisitt designet for å konkurrere på denne arenaen.

Denne agentiske tilnærmingens verdi er allerede bevist i bedriftsverdenen. I et landemerkegrep begynte investeringsbanken Goldman Sachs å pilotere den autonome AI-koderen Devin for å skape en”hybrid arbeidsstyrke.”Dens visjon er at menneskelige ingeniører skal overvåke flåter av AI-agenter, forvandle naturen til programvareutvikling.

Goldmans teknologisjef, Marco Argenti, forklarte strategien og sa:”det handler egentlig om mennesker og AI-er som jobber side om side. Ingeniører forventes å ha evnen til å virkelig beskrive problemer på en rask måte og gjøre det om til en rask måte”

reflekterer en fremtid hvor den primære menneskelige ferdigheten ikke er kjedelig utførelse, men problemdefinisjon og overvåking på høyt nivå.

Ved å bygge en modell som utmerker seg ved kompleks, flertrinns verktøybruk, posisjonerer Moonshot AI seg til å være en nøkkelspiller i dette nye paradigmet. Med Kimi K2 Thinking foretar selskapet en innsats med høy innsats som i en verden full av kraftige modeller, den som kan resonnere mest effektivt vil til slutt vinne utviklerøkosystemet.

Kimi K2 Benchmarks

LiveCodeBench [email protected]

48.5 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6 SWE-benk Verified

Enkeltforsøk (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Flere forsøk (Acc) — 8,42cc — 71,46cc — 71,42cc — — —

SWE-benk Flerspråklig

Enkeltforsøk (Acc) 47,3 25,8 20,9 51,0 — 31,5 —

TerminalBench

Inhouse Framework (Acc) 30,0 — — 35,5 43,2 8,3 — Terminus (Acc) — 6,5 — 6 s. 30,3 16,8

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Tau2 retail

Avg@4 70,6 69,1 57,0 75,0 48,au

flyselskap

Avg@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telecom

Avg@4 65,8 32,5 22,1 45,2 57,0 38,6 16,5 7 27 7. 75,6 80,1 74,5 Gj.sn.@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Gj.sn.@64 49,5 46,7 24,7* 33,1* 33,9* 37,4 Acc 49,0 91,2* 94,0 94,4 92,4 95,4 Avg@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Avg@16 74,3 74,7 48,6 60,4 57,6> Po. Gj.sn.@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9

ZebraLogic

Acc 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 Acc 89.8 8.9 89.8 8.9. 88,2 84,1

GPQA-Diamond

Gj.sn.@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Aks. Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,62 9 4,5 89,62*9. EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Prompt Strict 89,8 81,1 83,2* 87,6 87,4 88,0 84,3

Multi-Challenge

1 Acc 40.4 8.4. 49,0 36,4 39,5 Riktig 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 74,6 69,8  

Kilde:

Categories: IT Info