L’IA Moonshot di

​​con sede a Beijing ha rilasciato Kimi K2 venerdì, una serie di modelli AI open source volta a rivendicare la leadership di mercato nel settore dell’IA competitivo cinese. Il lancio è una mossa strategica per sfidare i rivali come DeepSeek e competere a livello globale con le aziende statunitensi.

Kimi K2 è un enorme modello di miscela di esperti con 1 trilione di parametri. È specificamente progettato per”intelligenza agente”, consentendole di eseguire autonomamente attività complesse e utilizzare strumenti digitali. Moonshot sottolinea la capacità di Kimi K2 di agire, non solo chattare, posizionandolo come un nuovo strumento potente per gli sviluppatori .

La versione dell’11 luglio segna un momento importante per l’avvio alibaba. Fondata nel 2023 dal laureato dell’Università di Tsinghua Yang Zhilin, Moonshot AI ha rapidamente guadagnato importanza, ma la sua posizione di mercato è stata recentemente sfidata da mosse aggressive dai concorrenti locali. Questo lancio è una risposta diretta e forte.

Una mossa strategica nella feroce AI Wars della Cina

La base di utenti di Moonshot per la sua applicazione Kimi ha visto la sua classifica slittata dal terzo al settimo posto in Cina tra agosto 2024 e giugno 2025. Questo declino ha seguito il rilascio di disturbo dei modelli a basso contenuto di convivi da Rival Deepseek, che ha intensificato il prezzo nazionale e il prezzo domestico. La versione di Kimi K2 è una chiara offerta per invertire questa tendenza.

mediante open sourcing il suo modello di punta, Moonshot sta adottando una strategia sempre più favorita dalle aziende tecnologiche cinesi. Questo approccio aiuta a costruire un’ampia comunità di sviluppatori e amplia l’influenza globale, fungendo da potente contromisura per le restrizioni tecnologiche statunitensi. È una mossa per conquistare Hearts and Minds tramite il codice.

La società sta rilasciando il modello con un Modificata licenza MIT , incoraggiando l’adozione del Widespread. Questa mossa mira a ristabilire Kimi come piattaforma di riferimento per gli sviluppatori, scommettendo che una capacità superiore e un ecosistema aperto possono riconquistare la quota di mercato.

Performance di riferimento di riferimento e il modello di alimentazione competitivo su altri modelli Open-H3>

in base a un raggio di performance. I risultati indicano prestazioni competitive in diverse aree chiave, tra cui codifica, uso dello strumento e ragionamento complesso.

Nei benchmark di codifica, Kimi K2 ha ottenuto un punteggio di 53,7 su Livecodebench V6, rispetto al 47,4 per Claude Opus 4 e 44.7 per GPT-4.1. Nel test di codifica agente di codifica Verificata, la sua precisione a singolo importatore è stata del 65,8%, posizionandolo al di sopra del 38,8%di Deepseek-V3 e il 54,6%di GPT-4.1, mentre trascinava il punteggio di Claude Sonnet 4 del 72,7%.

Le capacità del modello sono state testate su Benchmark come Tau2. Nell’attività di telecomunicazione Tau2, Kimi K2 ha segnato 65,8, che era superiore ai punteggi segnalati per GPT-4.1 (38,6) e Claude Sonet 4 (45.2). Ciò suggerisce una forte attitudine per l’interfaccia con strumenti esterni per completare gli obiettivi.

Per la matematica e il ragionamento, Kimi K2 ha anche dimostrato forti risultati. Nel benchmark della competizione di matematica AIME 2024, il suo punteggio di 69,6 era superiore a quello di Gemini 2.5 Flash (61.3) e Claude Opus 4 (48.2). Allo stesso modo, nel test di ragionamento GPQA-Diamond, il suo punteggio di 75,1 ha superato leggermente 74,9 di Claude 4.

su valutazioni di conoscenza generale come il benchmark MMLU, Kimi K2 ha segnato 89,5. Questo lo mette in stretta competizione con altri modelli di frontiera, con GPT-4.1 che ha segnato 90.4 e Claude Opus 4 raggiungendo 92,9. Collettivamente, i dati suggeriscono che Kimi K2 è un modello altamente capace, in particolare nella categoria Open-Source.

sotto il cofano: un agente di parametro da trilioni costruito per un’azione

kimi k2is un mix-of-experts (moe) con un modello di mirtillo totale, se non solo

href=”https://moonshotai.github.io/kimi-k2/”target=”_ blank”> 32 miliardi vengono attivati ​​per un dato token . Questa architettura, simile a quella utilizzata dal rivale Deepseek-V3, è progettata per l’efficienza computazionale su vasta scala, un fattore chiave per la distribuzione pratica.

L’architettura del modello supporta una lunghezza del contesto di 128k e una dimensione del vocabolario di 160k. Presenta 384 esperti distinti, con otto selezionati per elaborare ogni token, consentendo un calcolo altamente specializzato ed efficiente. Questo design è il risultato dell’analisi del ridimensionamento volto a massimizzare l’efficienza dei token.

Il modello era pre-addestrato su un token di dati di 15,5 trilioni di dati. Per gestire questo processo senza fallimento, Moonshot ha sviluppato un nuovo ottimizzatore”Muonclip”. Questa tecnica è un’evoluzione del suo Il lavoro precedente sull’ottimizzatore Muone è stato creato in modo specifico per la formazione di Exploding. Loghits”che può deragliare lo sviluppo del modello su larga scala. L’azienda riferisce che questo metodo gli ha permesso di completare l’intera formazione di token da 15,5 t con”zero training spike”, evidenziando la sua robustezza.

Oltre l’architettura principale, le capacità agenti di Kimi K2 sono state affinate attraverso una sofisticata pipeline di sintesi di dati. Questo sistema simula scenari del mondo reale con migliaia di strumenti, compresi quelli compatibili con il protocollo di contesto del modello (MCP), per generare dati di formazione basati su rubric di alta qualità per l’uso di strumenti.

Inoltre, Moonshot ha utilizzato un sistema di”apprendimento di rinforzo generale”. Ciò comporta un meccanismo auto-giudicante in cui il modello funge da proprio critico per fornire feedback sui compiti con ricompense non verificabili, come scrivere un rapporto, un passo cruciale nello sviluppo di abilità agricole più generali e affidabili.

moonshot è . Kimi-K2-Base è il modello fondamentale, destinato ai ricercatori che hanno bisogno di pieno controllo per la messa a punto. Kimi-K2-Instruct è una versione post-addestrata ottimizzata per la chat e descritta come un”modello di grado riflesso senza un lungo pensiero”per attività agenti fuori dalla scatola.

Moonshot fornisce accesso a Kimi K2 tramite la sua kimi chat , a Sviluppatore API e emettendo per affrontare

Il valore di questo approccio agente è già in fase di validazione dalle aziende. In una mossa storica, la banca di investimento Goldman Sachs ha appena iniziato a pilotare il programmatore AI autonomo Devin. La banca mira a costruire una”forza lavoro ibrida”in cui i suoi ingegneri umani supervisionano migliaia di agenti di intelligenza artificiale.

Il capo della tecnologia di Goldman, Marco Argenti, ha spiegato la visione, affermando:”Si tratta davvero di persone e AIS che lavorano sul lato. forza lavoro con Devin, che sarà come il nostro nuovo dipendente che inizierà a fare cose per conto dei nostri sviluppatori,”spostando l’attenzione umana dalla noiosa codifica alla supervisione di alto livello.

Questa tendenza non è limitata alla finanza. Il più ampio mercato della codifica AI è un campo di battaglia, con Google che lancia il suo agente Jules e la CLI GEMINI GRATUITA. Openai ha dato il suo accesso a Internet per agente del codice, sebbene il CEO Sam Altman abbia avvertito gli utenti di”leggere attentamente i rischi e utilizzare quando ha senso”, riconoscendo i rischi intrinseci.

Nel frattempo, le startup si stanno concentrando sulla profonda integrazione del flusso di lavoro. Anysphere, produttore del popolare editor di AI cursore, ha recentemente lanciato un’app Web per gestire i propri agenti di codifica da qualsiasi dispositivo. Questa strategia”multi-superficie”mira a rendere l’IA un collaboratore ambientale e sempre presente.

Categories: IT Info