Firma chineză de inteligență artificială Moonshot AI are un nou model open-source numit Kimi K2 Thinking. Lansat pe 6 noiembrie de la baza sa din Beijing, acesta marchează un pas major în cursa globală de a construi AI care să poată acționa singur.

Modelul este un „agent gânditor”. Poate rezolva probleme dificile folosind instrumente digitale în sute de pași. Moonshot vrea să-și învingă rivalii de pe piața dură de inteligență artificială din China.

În urma modelelor Kimi K2 cu un trilion de parametri și Kimi K2 Turbo, această nouă versiune se concentrează pe raționament la nivel înalt și are scoruri de top la testele din industrie.

Un „agent de gândire” creat pentru raționamentul complex și utilizarea instrumentelor

De la sediul său din Beijing, Moonshot AI face un alt joc agresiv în sectorul AI.

Compania a , dar ca o nouă clasă de model axată pe execuția autonomă. Este conceput ca un „agent gânditor” capabil să raționeze pas cu pas pentru a rezolva probleme complexe.

O capacitate cheie evidențiată de companie este capacitatea sa de a executa între 200 și 300 de apeluri secvențiale de instrumente, permițându-i să finalizeze sarcini complicate, în mai multe etape, fără intervenție umană.

Spre deosebire de noua sa lansare Kimide K2, care s-a concentrat asupra vitezei sale brute. prioritizează profunzimea cognitivă. Arhitectura sa de bază rămâne un model masiv de un trilion de parametri Mixture-of-Experts (MoE), activând 32 de miliarde de parametri pentru orice simbol dat.

Conform 2, modelul oficial are lungimea unui card și contextul extins2. Această fereastră masivă îi permite să proceseze și să analizeze baze întregi de coduri sau sute de pagini de documente într-o singură trecere, o caracteristică crucială pentru sarcinile complexe ale întreprinderii.

O inovație tehnică semnificativă este cuantizarea sa nativă INT4, realizată printr-o metodă numită Quantization-Aware Training (QAT). Acest lucru permite modelului să ruleze cu calcule de precizie mai mică, dublându-și în mod eficient viteza de inferență, menținând în același timp performanța omologilor săi cu precizie mai mare.

Pentru dezvoltatori, acest lucru face ca implementarea unui model cu un trilion de parametri să fie mai fezabilă din punct de vedere computațional și mai eficientă din punct de vedere al costurilor, scăzând o barieră majoră în calea adoptării.

Moonshot raportează. instrumente), un test de cunoștințe la nivel de expert. La activitățile de căutare și navigare agentică precum BrowseComp, a obținut 60,2, iar la testul de codare agentică SWE-Bench Verified, a ajuns la 71,3. (vezi tabelul de referință complet de la sfârșit)

Aceste rezultate îl plasează la granița modelelor open-source concepute pentru capabilități agentice.

A Strategic Gambit in China’s Fierce AI Wars

Eliberarea lui Kimi K2 Gândirea este o mișcare hiper-competată a AI, adesea dubioasă, a Chinei. sute de modele.”

Moonshot AI, cândva o stea în ascensiune, s-a confruntat cu o presiune intensă din partea rivalilor interni precum DeepSeek, Z.ai și Alibaba. Acest nou model este o încercare directă de a recâștiga conducerea prin schimbarea concentrației competitive de la viteză și preț la raționament sofisticat și performanță agentică.

Acest pivot vine după o perioadă dificilă pentru companie. Modelul său inițial Kimi K2, lansat în iulie, a fost un joc îndrăzneț cu sursă deschisă.

Cu toate acestea, piața s-a saturat rapid de alternative cu costuri reduse, în special de la rivalul DeepSeek, care a declanșat un război aprig al prețurilor. Acest lucru a afectat direct baza de utilizatori a aplicației de chat Kimi de la Moonshot, care și-a pierdut clasamentul intern.

Date noi pentru octombrie 2025 de la Statcounter confirmă că în prezent, concurența acerbă a Moonshot-AI nu este în topul concurenței. furnizori din China.

Moonshot pariază că capacitatea superioară în domeniul emergent al AI agentic poate construi o poziție pe piață mai susținabilă decât concurența numai pe cost. Cu toate acestea, această concentrare intensă asupra performanței clasamentului are propriile riscuri.

Așa cum a remarcat anterior strategul AI Nate Jones, „în momentul în care stabilim ca obiectiv dominația clasamentului, riscăm să creăm modele care excelează în exerciții triviale și care se înfruntă în fața realității”. Moonshot își propune să demonstreze că câștigurile sale de referință se traduc în utilitatea reală necesară pentru a recâștiga cota de piață.

[conținut încorporat]

Cursa globală pentru supremația agentică

Cel mai recent efort al Moonshot face parte dintr-o schimbare globală fundamentală în industria AI. Companiile trec dincolo de chatbot-urile care generează pur și simplu sugestii de text sau cod.

Noua sa frontieră este inteligența agentică: crearea de sisteme autonome care pot înțelege un obiectiv la nivel înalt, pot formula un plan și pot folosi o varietate de instrumente digitale pentru a-l executa. Kimi K2 Thinking este conceput în mod explicit pentru a concura în acest domeniu.

Valoarea acestei abordări agentice este deja dovedită în lumea corporativă. Într-o mișcare de referință, banca de investiții Goldman Sachs a început să piloteze codificatorul autonom AI Devin pentru a crea o „forță de muncă hibridă”. Viziunea sa este ca inginerii umani să supervizeze flotele de agenți AI, transformând natura dezvoltării software.

Șeful tehnologiei Goldman, Marco Argenti, a explicat strategia, afirmând: „Este vorba într-adevăr de oameni și AI care lucrează cot la cot. Se va aștepta ca inginerii să aibă capacitatea de a descrie cu adevărat problemele într-un mod coerent și de a se transforma într-o scurtă perioadă de timp. viitor în care abilitatea umană principală nu este execuția obositoare, ci definirea și supravegherea la nivel înalt a problemelor.

Prin construirea unui model care excelează la utilizarea instrumentelor complexe, în mai mulți pași, Moonshot AI se poziționează pentru a fi un jucător cheie în această nouă paradigmă. Cu Kimi K2 Thinking, compania face un pariu cu mize mari, că într-o lume plină de modele puternice, cea care poate raționa cel mai eficient va câștiga în cele din urmă ecosistemul dezvoltatorilor.

Evaluare Kimi K2

LiveCodeBench v6

Pass@1 53.47.47. 44,7 44,7 Reușit@1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Reușit@1 85,7 83,1 78,2 88,6 89,6 86,7 85,6

SWE-bench Verificat. 39,4 50,2 53,0 40,8 32,6

SWE-bench verificat

O singură încercare (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Mai multe încercări (Acc) 71,6 — — — 80,4S*-* Multilingv

Încercare unică (Acc) 47,3 25,8 20,9 51,0 — 31,5 —

TerminalBench

Cadru intern (Acc) 30,0 — — 35,5 43,2 8,3 — Terminus (Acc) 25,0 16,3 6,3 6,0

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Tau2 comerț cu amănuntul

Avg@4 70,6 69,1 57,0 75,0 81,8 74,8 Linie aeriana

Tau2 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telecom

Avg@4 65,8 32,5 22,1 45,2 57,0 38,6 16,9 Acc 76,5 72,5 76,76 72,5 72,7 74,5 Medie@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Medie@64 49,5 46,7 24,7* 33,1* 33,9* 37,0 46,6 Acc 97,04* 97,04* 97,04* 94,4 92,4 95,4 Avg@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Avg@16 74,3 74,7 48,6 60,4 57,6 56,6 75,0 Avg-@>ZebraLogic

Acc 89,0 84,0 37,7* 79,7 59,3 58,5 57,9 Acc 89,5 88,9 83,8 8.18.91.8.

GPQA-Diamond

Avg@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5 50,8 49,6 50,8 49,6 Ultima Acc. 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,2* 93,6 94,1 94,2 94,2 81,2* 77,3 83,7 86,6 81,8 79,4 Prompt Strict 89,8 81,1 83,2* 87,6 87,4 88,0 84,3

Multi-Challenge

Acc 54,1 81,1 83,2 87,6 87,4 88,0 84,3 39,5 Corect 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Reușit@1 76,4 72,4 67,6 74,8 74,6 69,8  

(Sursa: Moonshot AI)

Categories: IT Info