Moonshot AI, cu sediul în Beijing, a lansat vineri Kimi K2, o serie de modele AI open-source, care vizează recuperarea leadershipului de piață în sectorul competitiv al AI al Chinei. Lansarea este o mișcare strategică pentru a contesta rivali precum Deepseek și concurează la nivel global cu firmele americane.
Kimi K2 este un model masiv de amestec de experți cu 1 trilion de parametri. Este conceput special pentru „Intelligență agentică”, permițându-i să execute în mod autonom sarcini complexe și să utilizeze instrumente digitale. Moonshot subliniază capacitatea lui Kimi K2 de a acționa, nu doar de chat, poziționându-l ca instrument nou puternic pentru dezvoltatori . Fondată în 2023 de către absolventul Universității Tsinghua, Yang Zhilin, Moonshot AI a obținut rapid proeminență, dar poziția sa pe piață a fost recent contestată de mișcări agresive ale concurenților locali. Această lansare este un răspuns direct și puternic.
Un gambit strategic în apri-ul feroce AI din China
Baza de utilizatori a lui Moonshot pentru aplicația sa Kimi și-a văzut clasamentul de la al treilea la al șaptelea în China, între august 2024 și iunie 2025. Lansarea Kimi K2 este o ofertă clară pentru a inversa această tendință.
Prin aprovizionarea cu modelul său emblematic, Moonshot adoptă o strategie din ce în ce mai favorizată de firmele tehnologice chineze. Această abordare ajută la construirea unei comunități largi de dezvoltatori și extinde influența globală, servind ca o contramăsură puternică pentru restricțiile tehnologice din SUA. Este un gambit pentru a câștiga inimi și minți prin cod.
Compania lansează modelul sub A Licență MIT modificată , încurajarea adoptării și experimentării. This move aims to re-establish Kimi as a go-to platform for developers, betting that superior capability and an open ecosystem can win back market share.
Benchmark Performance and Competitive Standing
According to performance data released by Moonshot AI, the Kimi-K2-Instruct model was evaluated against other leading open-source and proprietary models across a range of sarcini. Rezultatele indică performanțe competitive în mai multe domenii cheie, inclusiv codificarea, utilizarea sculei și raționamentul complex.
În codificarea de referință, Kimi K2 a obținut un scor de 53,7 pe LiveCodeBench V6, comparativ cu 47,4 pentru Claude Opus 4 și 44,7 pentru GPT-4.1. La testul de codificare agentic, Swe-Bench verificat, precizia sa cu o singură dată a fost de 65,8%, așezându-l peste 38,8%de la Deepseek-V3 și GPT-4.1 de 54,6%, în timp ce se ocupă de scorul Claude Sonet 4 de 72,7%. Pe sarcina Tau2 Telecom, Kimi K2 a marcat 65,8, ceea ce a fost mai mare decât scorurile raportate pentru GPT-4.1 (38.6) și Claude Sonet 4 (45.2). Acest lucru sugerează o aptitudine puternică pentru interfațarea cu instrumente externe pentru a finaliza obiectivele.
pentru matematică și raționament, Kimi K2 a demonstrat, de asemenea, rezultate puternice. Pe referința competiției de matematică AIME 2024, scorul său de 69,6 a fost mai mare decât cel al Gemini 2,5 Flash (61.3) și Claude Opus 4 (48,2). În mod similar, la testul de raționament GPQA-Diamond, scorul său de 75,1 a depășit ușor 74.9. Acest lucru îl plasează într-o concurență strânsă cu alte modele de frontieră, GPT-4.1 notând 90.4 și Claude Opus 4 atingând 92.9. Colectiv, datele sugerează că Kimi K2 este un model extrem de capabil, în special în categoria open-source.
sub capotă: un agent de trilioane de parametri construit pentru acțiune
kimi k2is Un amestec-of-experts (Moe) cu un model de straturi, un model de parametri, în totalitate, în totalitate, cu un model de amestec, cu un amestec de parametri în totalitatea parametrilor, în totalitate, în totalitate parametrilor în totalitate parametrilor, în total parametri în total parametri, în total parametri, în total parametri în total parametri, în total parametri, în total parametri, în total parametri. href=”https://moonshotai.github.io/kimi-k2/”target=”_ blank”> 32 miliarde sunt activate pentru orice jeton dat . Această arhitectură, similară cu cea folosită de rivalul Deepseek-V3, este proiectată pentru eficiență de calcul la scară masivă, un factor cheie pentru implementarea practică.
Arhitectura modelului acceptă o lungime de context de 128k și o dimensiune a vocabularului de 160k. Dispune de 384 de experți distinși, opt fiind selectați pentru a prelucra fiecare simbol, permițând un calcul extrem de specializat și eficient. Acest design este rezultatul analizei de scalare a dreptului, care vizează maximizarea eficienței jetonului.
Modelul a fost instruit în prealabil pe un jetoane de 15,5 trilioane de date. Pentru a gestiona acest proces fără eșec, Moonshot a dezvoltat un nou optimizator „muonclip”. Această tehnică este o evoluție a Lucrări anterioare la optimizatorul Muon , care depășește performanțele standard Adamw, dar poate suferi instabilitate la scară. Logitele „care pot deraia dezvoltarea modelului pe scară largă. Compania raportează că această metodă i-a permis să finalizeze întreaga rulare de antrenament de 15,5 T cu „Zero Training Spike”, subliniind robustetea sa.
Dincolo de arhitectura de bază, capacitățile agentice ale lui Kimi K2 au fost perfecționate printr-o conductă sofisticată de sinteză a datelor. Acest sistem simulează scenarii din lumea reală cu mii de instrumente, inclusiv cele compatibile cu Protocolul de context al modelului (MCP), pentru a genera date de instruire bazate pe rubrică, bazate pe rubrică, pentru utilizarea instrumentelor.
În plus, Moonshot a folosit un sistem de „învățare generală”. Acesta implică un mecanism de auto-judecare în care modelul acționează ca propriul său critic pentru a oferi feedback cu privire la sarcinile cu recompense neverificabile, cum ar fi scrierea unui raport, un pas crucial în dezvoltarea abilităților agentice mai generale și mai fiabile.
Moonshot este Eliberarea a două versiuni ale modelului . KIMI-K2-Base este modelul fundamental, destinat cercetătorilor care au nevoie de control complet pentru reglarea fină. Kimi-K2-Instruct is a post-trained version optimized for chat and described as a “reflex-grade model without long thinking”for out-of-the-box agentic tasks.
Moonshot provides access to Kimi K2 through its Kimi chat app, a dezvoltator API , și instrucțiuni pentru auto-hosting . Compania notează transparent că modelul are limitări, inclusiv scăderi ocazionale de performanță atunci când utilizarea instrumentului este activată, un Emite pe care intenționează să-l abordeze .
Cursa globală pentru agentul de inteligență
Împingerea este o informație agentică în urma îndepărtării industriei fundamentale de asistenții AI care sugerează doar text sau cod. Agenții AI sunt concepute pentru a înțelege un obiectiv, pentru a crea un plan și pentru a utiliza instrumente pentru a executa sarcini complexe, în mai multe etape.
Valoarea acestei abordări agentice este deja validată de companii. Într-o mișcare de reper, banca de investiții Goldman Sachs tocmai a început să piloteze codificatorul autonom AI Devin. Banca își propune să construiască o „forță de muncă hibridă” în care inginerii săi umani supraveghează mii de agenți AI.
șeful tehnologic al lui Goldman, Marco Argenti, a explicat viziunea, afirmând: „Este vorba cu adevărat de oameni și de AIS care lucrează cot la cot. „Îmbunătățirea forței de muncă cu Devin, care va fi ca noul nostru angajat, care va începe să facă lucruri în numele dezvoltatorilor noștri,„ trecerea concentrării umane de la codificarea obositoare la supraveghere la nivel înalt.
Această tendință nu se limitează la finanțe. Piața mai largă de codificare AI este un teren de luptă, Google lansând agentul său Jules și CLI-ul Gemini gratuit. OpenAI a acordat accesul la internet al agentului de codex, deși CEO-ul Sam Altman a avertizat utilizatorii să „citească cu atenție riscurile cu atenție și să folosească atunci când are sens”, recunoscând riscurile inerente.
Între timp, startup-urile se concentrează pe o integrare profundă a fluxului de lucru. AnySphere, producătorul popularului editor AI Cursor, a lansat recent o aplicație web pentru a-și gestiona agenții de codificare de pe orice dispozitiv. Această strategie „multi-suprafață” își propune să facă din AI un colaborator ambiental, mereu prezent.