Moonshot AI yang berbasis di Beijing merilis Kimi K2 pada hari Jumat, seri model AI open-source yang bertujuan untuk mengklaim kembali kepemimpinan pasar di sektor AI kompetitif China. Peluncuran ini merupakan langkah strategis untuk menantang saingan seperti Deepseek dan bersaing secara global dengan perusahaan A.S.

Kimi K2 adalah model campuran masif-of-Experts dengan 1 triliun parameter. Ini dirancang khusus untuk”kecerdasan agen,”yang memungkinkannya untuk secara mandiri menjalankan tugas-tugas kompleks dan menggunakan alat digital. Moonshot menekankan kemampuan Kimi K2 untuk bertindak, bukan hanya mengobrol, memposisikannya sebagai Alat baru yang kuat untuk pengembang .

Rilis Juli Moms For The STORTA Momen penting untuk The Albura. Didirikan pada tahun 2023 oleh lulusan Universitas Tsinghua yang Yang Zhilin, Moonshot AI dengan cepat menjadi terkenal, tetapi status pasarnya baru-baru ini ditantang oleh gerakan agresif dari pesaing lokal. Peluncuran ini adalah respons langsung dan kuat.

Sebuah gambit strategis dalam AI Wars yang sengit di Tiongkok

Basis pengguna Moonshot untuk aplikasi Kimi melihat peringkatnya dari ketiga ke ketujuh di Cina antara Agustus 2024 dan Juni 2025. Penurunan ini mengikuti rilis Ware yang tidak ada pada model Wearse yang mengintensifkan. Rilis Kimi K2 adalah tawaran yang jelas untuk membalikkan tren ini.

Dengan open-sourcing model andalannya, Moonshot mengadopsi strategi yang semakin disukai oleh perusahaan teknologi Cina. Pendekatan ini membantu membangun komunitas pengembang yang luas dan memperluas pengaruh global, berfungsi sebagai penanggulangan yang kuat untuk pembatasan teknologi A.S. Ini adalah Gambit untuk memenangkan hati dan pikiran melalui kode.

Perusahaan merilis model di bawah lisensi mit yang dimodifikasi , pendorong WIDESAGIGING WIDESAGIGEG WIDESAGIGASIONAL. This move aims to re-establish Kimi as a go-to platform for developers, betting that superior capability and an open ecosystem can win back market share.

Benchmark Performance and Competitive Standing

According to performance data released by Moonshot AI, the Kimi-K2-Instruct model was evaluated against other leading open-source and proprietary models across a range of tugas. Hasilnya menunjukkan kinerja kompetitif di beberapa bidang utama, termasuk pengkodean, penggunaan alat, dan penalaran yang kompleks.

Dalam pengkodean tolok ukur, Kimi K2 mencapai skor 53,7 pada LiveCodebench V6, dibandingkan dengan 47,4 untuk Claude Opus 4 dan 44,7 untuk GPT-4.1. Pada uji pengkodean agen swe-bench diverifikasi, akurasinya tunggal adalah 65,8%, menempatkannya di atas 38,8%Deepseek-V3 dan GPT-4.1 54,6%, sementara membuntuti skor CLAUDE SONNET 4 sebesar 72,7%.

Kapabilitas model dalam penggunaan alat diuji di BenchmAr. Pada tugas telekomunikasi Tau2, Kimi K2 mencetak 65,8, yang lebih tinggi dari skor yang dilaporkan untuk GPT-4.1 (38,6) dan Claude Sonnet 4 (45,2). Ini menunjukkan bakat yang kuat untuk berinteraksi dengan alat eksternal untuk menyelesaikan tujuan.

Untuk matematika dan penalaran, Kimi K2 juga menunjukkan hasil yang kuat. Pada tolok ukur kompetisi matematika AIME 2024, skornya 69,6 lebih tinggi dari pada Gemini 2.5 Flash (61,3) dan Claude Opus 4 (48,2). Demikian pula, pada tes penalaran GPQA-Diamond, skornya 75,1 sedikit melebihi Claude Opus 4’s 74,9.

Pada evaluasi pengetahuan umum seperti patokan MMLU, Kimi K2 mencetak 89,5. Ini menempatkannya dalam kompetisi erat dengan model perbatasan lainnya, dengan GPT-4.1 mencetak 90,4 dan Claude Opus 4 mencapai 92,9. Collectively, the data suggests Kimi K2 is a highly capable model, particularly in the open-source category.

Under the Hood: A Trillion-Parameter Agent Built for Action

Kimi K2is a Mixture-of-Experts (MoE) model with a staggering one trillion total parameters, though only 32 miliar diaktifkan untuk setiap token yang diberikan . Arsitektur ini, mirip dengan yang digunakan oleh saingan Deepseek-V3, dirancang untuk efisiensi komputasi pada skala besar, faktor kunci untuk penyebaran praktis.

Arsitektur model mendukung panjang konteks 128k dan ukuran kosa kata 160K. Ini fitur 384 ahli yang berbeda, dengan delapan dipilih untuk memproses masing-masing token, memungkinkan perhitungan yang sangat khusus dan efisien. Desain ini adalah hasil dari analisis penskalaan hukum yang bertujuan memaksimalkan efisiensi token.

Model ini pra-terlatih pada 15,5 triliun token data. Untuk mengelola proses ini tanpa kegagalan, Moonshot mengembangkan novel”Muonclip”Optimizer. Teknik ini adalah evolusi dari Pekerjaan sebelumnya pada pengoptimal muon , yang mengungguli”pelatihan yang dibuat oleh standolik dengan loading dengan secara spesifik, tetapi dapat dicegah dengan secara berskala pada skala. yang dapat menggagalkan pengembangan model skala besar. Perusahaan melaporkan bahwa metode ini memungkinkannya untuk menyelesaikan seluruh 15.5t token pelatihan berjalan dengan”nol pelatihan lonjakan,”menyoroti kekokohannya.

Di luar arsitektur inti, kemampuan agen Kimi K2 diasah melalui pipa sintesis data yang canggih. Sistem ini mensimulasikan skenario dunia nyata dengan ribuan alat, termasuk yang kompatibel dengan model konteks protokol (MCP), untuk menghasilkan data pelatihan berbasis rubrik berkualitas tinggi untuk penggunaan alat.

Lebih lanjut, bulan Moonshot menggunakan sistem”pembelajaran penguatan umum”. This involves a self-judging mechanism where the model acts as its own critic to provide feedback on tasks with non-verifiable rewards, such as writing a report, a crucial step in developing more general and reliable agentic skills.

Moonshot is releasing two Versi model . KIMI-K2-BASE adalah model dasar, yang ditujukan untuk para peneliti yang membutuhkan kontrol penuh untuk penyempurnaan. Kimi-K2-instruct adalah versi pasca-terlatih yang dioptimalkan untuk obrolan dan digambarkan sebagai”model refleks-grade tanpa pemikiran lama”untuk tugas-tugas agen out-of-the-box.

Moonshot menyediakan akses ke kimi k2 melalui pengembang API , dan .

. adalah kecerdasan agen yang mengikuti industri mendasar bergeser dari asisten AI yang hanya menyarankan teks atau kode. Agen AI dirancang untuk memahami suatu tujuan, membuat rencana, dan menggunakan alat untuk menjalankan tugas yang kompleks dan multi-langkah.

Nilai pendekatan agen ini sudah divalidasi oleh perusahaan. Dalam langkah tengara, bank investasi Goldman Sachs baru saja mulai mengemudikan coder AI Otonomi Devin. Bank bertujuan untuk membangun”tenaga kerja hibrida”di mana para insinyur manusianya mengawasi ribuan agen AI.

Kepala teknologi Goldman, Marco Argenti, menjelaskan visi itu, menyatakan,”Ini benar-benar tentang orang-orang dan AIS yang bekerja secara bersamaan. Tenaga kerja dengan Devin, yang akan menjadi seperti karyawan baru kami yang akan mulai melakukan hal-hal atas nama pengembang kami,”menggeser fokus manusia dari pengkodean yang membosankan ke pengawasan tingkat tinggi.

Tren ini tidak terbatas pada keuangan. Pasar pengkodean AI yang lebih luas adalah medan pertempuran, dengan Google meluncurkan agen Jules dan Gemini Cli gratis. Openai memberikan akses internet agen kodeksnya, meskipun CEO Sam Altman memperingatkan pengguna untuk”membaca tentang risiko dengan hati-hati dan digunakan ketika masuk akal,”mengakui risiko yang melekat.

Sementara itu, startup berfokus pada integrasi alur kerja yang mendalam. Anysphere, pembuat editor AI kursor populer, baru-baru ini meluncurkan aplikasi web untuk mengelola agen pengkodeannya dari perangkat apa pun. Strategi”multi-permukaan”ini bertujuan untuk menjadikan AI kolaborator ambient, yang selalu ada.