in Beijing gevestigde Moonshot AI bracht vrijdag Kimi K2 uit, een open-source AI-modelserie gericht op het terugwinnen van marktleiderschap in de competitieve AI-sector van China. De lancering is een strategische stap om rivalen zoals Deepseek uit te dagen en wereldwijd te concurreren met Amerikaanse bedrijven.

Kimi K2 is een enorm mengsel-van-experts-model met 1 biljoen parameters. Het is specifiek ontworpen voor’agentische intelligentie’, waardoor het autonoom complexe taken kan uitvoeren en digitale tools kan gebruiken. Moonshot benadrukt het vermogen van Kimi K2 om te handelen, niet alleen chatten, het positioneren als een krachtige nieuwe tool voor ontwikkelaars . Moonshot AI, opgericht in 2023 door de Tsinghua University-afgestudeerde Yang Zhilin, kreeg snel een bekendheid, maar haar marktstand is onlangs aangevochten door agressieve bewegingen van lokale concurrenten. Deze lancering is een directe en krachtige reactie.

Een strategische gok in de felle AI Wars van China

Moonshot’s gebruikersbestand voor zijn Kimi-applicatie zag zijn rangschikking van derde naar zevende in China tussen augustus 2024 en juni 2025. Deze daling volgde de disruptieve release van lage kooadmodellen door Rival Deepsed de binnenlandse AI-prijs en prestatierelervoorlog. De Kimi K2-release is een duidelijk bod om deze trend om te keren.

Door zijn vlaggenschipmodel te openen, neemt Moonshot een strategie aan die steeds meer wordt begunstigd door Chinese technologiebedrijven. Deze aanpak helpt bij het opbouwen van een brede ontwikkelaarsgemeenschap en breidt de wereldwijde invloed uit en dient als een krachtige tegenmaatregel voor de beperkingen van de Amerikaanse technologie. Het is een gok om harten en geesten te winnen via code.

Het bedrijf brengt het model uit onder een gemodificeerde MIT-licentie , aanmoedigende widepread adoption en experimentatie. Deze stap is bedoeld om Kimi te herstellen als een go-to-platform voor ontwikkelaars, wedden dat superieure capaciteiten en een open ecosysteem het marktaandeel kunnen winnen.

benchmarkprestaties en competitieve status

Volgens prestatiegegevens die zijn vrijgegeven door Moonshot AI, het KIMI-K2-instructiemodel is geëvalueerd tegen andere toonaangevende open-source en propriete van taak. De resultaten duiden op concurrerende prestaties in verschillende belangrijke gebieden, waaronder codering, gereedschapsgebruik en complexe redenering.

In coderende benchmarks behaalde Kimi K2 een score van 53,7 op LivecodeBench V6, vergeleken met 47,4 voor Claude Opus 4 en 44.7 voor GPT-4.1. Op de agentische coderingstest SWE-Bench geverifieerd, was de eenmalige nauwkeurigheid van een enkelheid 65,8%en plaatste deze boven de Deepseek-V3’s 38,8%en de 54,6%van GPT-4,1, terwijl de score van Claude Sonnet 4 van 72,7%.

De capaciteiten van het model werden getest op de benchmarks zoals Tau2. Tijdens de Tau2 Telecom-taak scoorde Kimi K2 65,8, die hoger was dan de gerapporteerde scores voor GPT-4.1 (38.6) en Claude Sonnet 4 (45.2). Dit suggereert een sterke aanleg voor het interface met externe hulpmiddelen om doelstellingen te voltooien.

Voor wiskunde en redenering vertoonde Kimi K2 ook sterke resultaten. Op de Aime 2024 Math Competition-benchmark was de score van 69,6 hoger dan die van Gemini 2.5 Flash (61.3) en Claude Opus 4 (48.2). Evenzo overschreed de score van 75.1 op de GPQA-Diamond-redeneringstest Claude Opus 4’s 74.9.

over algemene kennisevaluaties zoals de MMLU-benchmark, scoorde Kimi K2 89.5. Dit plaatst het in nauwe concurrentie met andere Frontier-modellen, waarbij GPT-4.1 90.4 scoorde en Claude Opus 4 met 92.9. Gezamenlijk suggereren de gegevens dat Kimi K2 een zeer capabel model is, met name in de open-source categorie.

onder de motorkap: een biljoen-parameter agent gebouwd voor actie

Kimi k2is a mengsel-of-perperts (MOE) met een staggier totale parameters, hoewel een trillion totale parameters, hoewel 32 miljard worden geactiveerd voor een bepaald token . Deze architectuur, vergelijkbaar met die gebruikt door rivaal Deepseek-V3, is ontworpen voor computationele efficiëntie op massale schaal, een sleutelfactor voor praktische implementatie.

De architectuur van het model ondersteunt een 128k contextlengte en een 160k vocabulaire. Het beschikt over 384 verschillende experts, waarvan er acht worden geselecteerd om elk token te verwerken, waardoor zeer gespecialiseerde en efficiënte berekening mogelijk is. Dit ontwerp is een resultaat van de analyse van de schaalwet gericht op het maximaliseren van de tokenefficiëntie.

Het model was vooraf getraind op een gegevens van 15,5 biljoen gegevens. Om dit proces zonder falen te beheren, ontwikkelde Moonshot een nieuwe”Muonclip”Optimizer. This technique is an evolution of its earlier work on the Muon optimizer, which outperforms the standard AdamW optimizer but can suffer from instability at scale.

MuonClip was created specifically to stabilize training by preventing the “exploding attention Logits”die grootschalige modelontwikkeling kunnen ontsporen. Het bedrijf meldt dat deze methode het toestond om de hele 15.5T-tokentrainingsrun te voltooien met”Zero Training Spike,”benadrukt de robuustheid.

Voorbij de kernarchitectuur, werden de agentische mogelijkheden van Kimi K2 aangescherpt via een geavanceerde data-synthese-pijplijn. Dit systeem simuleert real-world scenario’s met duizenden tools, waaronder die compatibel met het Model Context Protocol (MCP), om hoogwaardige, rubric-gebaseerde trainingsgegevens voor gereedschapsgebruik te genereren.

Verder gebruikte Moonshot een”algemeen wapening leren”-systeem. Dit omvat een zelfbevestigingsmechanisme waarbij het model als zijn eigen criticus fungeert om feedback te geven over taken met niet-verifieerbare beloningen, zoals het schrijven van een rapport, een cruciale stap in het ontwikkelen van meer algemene en betrouwbare agentische vaardigheden.

Moonshot is . Kimi-K2-Base is het fundamentele model, bedoeld voor onderzoekers die volledige controle nodig hebben voor verfijning. Kimi-K2-instructie is een post-opgeleide versie die is geoptimaliseerd voor chat en beschreven als een”reflex-grade model zonder lang denken”voor out-of-the-box agentische taken.

Moonshot biedt toegang tot kimi k2 via zijn kimi chat-app , a , een ontwikkelaar API , en Agentische intelligentie na de fundamentele industrie verschuift van AI-assistenten die alleen tekst of code suggereren. AI-agenten zijn ontworpen om een ​​doel te begrijpen, een plan te maken en hulpmiddelen te gebruiken om complexe, multi-step-taken uit te voeren.

De waarde van deze agentische aanpak wordt al gevalideerd door bedrijven. In een mijlpaalbeweging begon Investment Bank Goldman Sachs net te besturen met het besturen van autonome AI-codeer Devin. De bank wil een”hybride personeelsbestand”bouwen waar haar menselijke ingenieurs toezicht houden op duizenden AI-agenten.

Goldman’s Tech Chief, Marco Argenti, legde de visie uit, waarin staat:”Het gaat echt over mensen en AIS die zij aan zij zijn om te gaan met een coherente manier om problemen te beschrijven in een auglu van”Werknemers met Devin, dat zal zijn als onze nieuwe medewerker die gaat doen namens onze ontwikkelaars,”het verleggen van menselijke focus van vervelende codering naar toezicht op hoog niveau.

Deze trend is niet beperkt tot financiën. De bredere AI-coderingsmarkt is een slagveld, waarbij Google zijn Jules-agent en gratis Gemini CLI lanceert. OpenAI gaf zijn codex-agent internettoegang, hoewel CEO Sam Altman gebruikers waarschuwde om’zorgvuldig over de risico’s te lezen en te gebruiken wanneer het zinvol is’,’erkennen van de inherente risico’s.

Ondertussen richten startups zich op diepe workflow-integratie. Anysphere, maker of the popular Cursor AI editor, recently launched a web app to manage its coding agents from any device. Deze”multi-surface”-strategie is bedoeld om van AI een ambient, altijd aanwezige medewerker te maken.