Perusahaan AI Tiongkok, Moonshot AI, memiliki model sumber terbuka baru yang disebut Kimi K2 Thinking. Diluncurkan pada tanggal 6 November dari basisnya di Beijing, model ini menandai langkah besar dalam perlombaan global untuk membangun AI yang dapat bertindak sendiri.

Model ini adalah “agen yang berpikir”. Ini dapat memecahkan masalah sulit dengan menggunakan alat digital dalam ratusan langkah. Moonshot ingin mengalahkan para pesaingnya di pasar AI yang tangguh di Tiongkok.

Mengikuti model Kimi K2 dan Kimi K2 Turbo yang memiliki triliunan parameter, versi baru ini berfokus pada penalaran tingkat tinggi dan memiliki skor tertinggi dalam pengujian industri.

Sebuah ‘Agen Berpikir’ yang Dibuat untuk Penalaran dan Penggunaan Alat yang Kompleks

Dari kantor pusatnya di Beijing, Moonshot AI kembali melakukan permainan agresif di sektor AI.

Perusahaan telah memposisikan Kimi K2 Thinking tidak hanya sebagai peningkatan, namun sebagai model kelas baru yang berfokus pada eksekusi otonom. Ia dirancang sebagai “agen berpikir”yang mampu melakukan penalaran langkah demi langkah untuk memecahkan masalah yang kompleks.

Kemampuan utama yang disorot oleh perusahaan adalah kemampuannya untuk menjalankan antara 200 dan 300 panggilan alat berurutan, sehingga memungkinkannya menyelesaikan tugas multi-tahap yang rumit tanpa campur tangan manusia.

Tidak seperti pendahulunya, Kimi K2 Turbo, yang berfokus pada kecepatan mentah, rilis baru ini memprioritaskan kedalaman kognitif. Arsitektur dasarnya tetap berupa model Mixture-of-Experts (MoE) berukuran besar dengan satu triliun parameter, yang mengaktifkan 32 miliar parameter untuk token apa pun.

Menurut kartu model resmi, model ini memiliki panjang konteks yang diperluas hingga 256 ribu. Jendela besar ini memungkinkannya memproses dan menganalisis seluruh basis kode atau ratusan halaman dokumen sekaligus, sebuah fitur penting untuk tugas-tugas perusahaan yang kompleks.

Inovasi teknis yang signifikan adalah kuantisasi INT4 aslinya, yang dicapai melalui metode yang disebut Quantization-Aware Training (QAT). Hal ini memungkinkan model berjalan dengan penghitungan presisi yang lebih rendah, sehingga secara efektif menggandakan kecepatan inferensinya sekaligus mempertahankan performa model dengan presisi lebih tinggi.

Bagi developer, hal ini membuat penerapan model triliun parameter menjadi lebih layak secara komputasi dan hemat biaya, sehingga mengurangi hambatan besar dalam penerapannya.

Laporan Moonshot Kimi K2 Thinking mendapat nilai 44,9 pada Ujian Terakhir Kemanusiaan (dengan alat), sebuah tes pengetahuan tingkat ahli. Pada pencarian agen dan tugas penjelajahan seperti BrowserComp, skornya 60,2, dan pada tes pengkodean agen SWE-Bench Verified, skornya mencapai 71,3. (lihat tabel tolok ukur lengkap di bagian akhir)

Hasil ini menempatkannya di garis depan model sumber terbuka yang dirancang untuk kemampuan agen.

Langkah Strategis dalam Perang AI yang Sengit di Tiongkok

Meluncurkan Kimi K2 Thinking adalah langkah yang diperhitungkan dalam pasar AI yang sangat kompetitif di Tiongkok, yang sering disebut sebagai “perang seratus model.”

Moonshot AI, yang pernah menjadi bintang baru, telah menghadapi tekanan kuat dari pesaing domestik seperti DeepSeek, Z.ai, dan Alibaba. Model baru ini merupakan upaya langsung untuk merebut kembali kepemimpinan dengan mengalihkan fokus kompetitif dari kecepatan dan harga ke penalaran canggih dan kinerja agen.

Poros ini muncul setelah masa yang penuh tantangan bagi perusahaan. Model Kimi K2 aslinya, yang diluncurkan pada bulan Juli, merupakan permainan sumber terbuka yang berani.

Namun, pasar dengan cepat menjadi jenuh dengan alternatif berbiaya rendah, terutama dari saingannya DeepSeek, yang memicu perang harga yang sengit. Hal ini berdampak langsung pada basis pengguna aplikasi chat Kimi milik Moonshot, yang mengalami penurunan peringkat domestik.

Data terbaru untuk bulan Oktober 2025 dari Statcounter mengonfirmasi persaingan yang ketat, yang menunjukkan bahwa Moonshot saat ini bukan salah satu penyedia chatbot AI dengan peringkat teratas di Tiongkok.

Moonshot yakin bahwa kemampuan unggul di bidang AI agen yang sedang berkembang dapat membangun posisi pasar yang lebih dapat dipertahankan dibandingkan hanya bersaing berdasarkan biaya. Namun, fokus yang intens pada performa papan peringkat ini memiliki risikonya sendiri.

Seperti yang sebelumnya disampaikan oleh ahli strategi AI, Nate Jones, “saat kita menetapkan dominasi papan peringkat sebagai tujuan, kita berisiko menciptakan model yang unggul dalam latihan sepele dan gagal ketika menghadapi kenyataan.”Moonshot bertujuan untuk membuktikan kemenangan benchmarknya diterjemahkan ke dalam utilitas dunia nyata yang diperlukan untuk memenangkan kembali pangsa pasar.

[konten tertanam]

Perlombaan Global untuk Supremasi Agen

Upaya terbaru Moonshot adalah bagian dari perubahan global yang mendasar dalam industri AI. Perusahaan kini beralih dari sekadar chatbot yang hanya menghasilkan saran teks atau kode.

Bagian barunya adalah kecerdasan agen: menciptakan sistem otonom yang dapat memahami tujuan tingkat tinggi, merumuskan rencana, dan menggunakan berbagai alat digital untuk melaksanakannya. Kimi K2 Thinking secara eksplisit dirancang untuk bersaing di arena ini.

Nilai pendekatan agenik ini telah terbukti di dunia korporat. Dalam sebuah langkah penting, bank investasi Goldman Sachs mulai menguji coba pembuat kode AI otonom Devin untuk menciptakan “tenaga kerja hybrid”. Visinya adalah agar para insinyur manusia dapat mengawasi armada agen AI, sehingga mengubah sifat pengembangan perangkat lunak.

Kepala teknologi Goldman, Marco Argenti, menjelaskan strategi tersebut, dengan menyatakan,”ini benar-benar tentang manusia dan AI yang bekerja berdampingan. Insinyur diharapkan memiliki kemampuan untuk benar-benar menggambarkan masalah dengan cara yang koheren dan mengubahnya menjadi petunjuk…”

Pergeseran seperti itu mencerminkan masa depan di mana keterampilan utama manusia bukanlah pelaksanaan yang membosankan, melainkan proses yang membosankan. definisi dan pengawasan masalah tingkat tinggi.

Dengan membangun model yang unggul dalam penggunaan alat multi-langkah yang kompleks, Moonshot AI memposisikan dirinya untuk menjadi pemain kunci dalam paradigma baru ini. Dengan Kimi K2 Thinking, perusahaan membuat taruhan besar bahwa di dunia yang dipenuhi dengan model-model canggih, model yang mampu berpikir paling efektif pada akhirnya akan memenangkan ekosistem developer.

Tolok Ukur Kimi K2

LiveCodeBench v6

Pass@1 53.7 46.9 37.0 48.5 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6

SWE-bench Terverifikasi

Patch Tunggal tanpa Tes (Acc) 51.8 36.6 39.4 50.2 53.0 40.8 32.6

SWE-bench Terverifikasi

Percobaan Tunggal (Acc) 65.8 38.8 34.4 72.7* 72.5* 54.6 — Percobaan Ganda (Acc) 71.6 — — 80.2* 79.4* — —

SWE-bench Multibahasa

Percobaan Tunggal (Acc) 47.3 25.8 20.9 51.0 — 31.5 —

TerminalBench

Inhouse Framework (Acc) 30.0 — — 35.5 43.2 8.3 — Terminus (Acc) 25.0 16.3 6.6 — — 30.3 16.8

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Ritel Tau2

Avg@4 70,6 69,1 57,0 75,0 81,8 74,8 64,3

Maskapai penerbangan Tau2

Rata-rata@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telekomunikasi

Rata-rata@4 65,8 32,5 22,1 45,2 57,0 38,6 16,9 Acc 76,5 72,7 70,5 76,2 75,6 80,1 74,5 Rata-rata@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Rata-rata@64 49,5 46,7 24,7* 33,1* 33,9* 37,0 46,6 Akun 97,4 94,0* 91,2* 94,0 94,4 92,4 95,4 Rata-rata@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Rata-rata@16 74,3 74,7 48,6 60,4 57,6 56,6 75,0

PolyMath-en

Rata-rata@4 65,1 59,5 51,9 52.8 49.8 54.0 49.9

ZebraLogic

Acc 89.0 84.0 37.7* 79.7 59.3 58.5 57.9 Acc 89.5 88.9 83.3* 89.8 86.1 88.2 84.1

GPQA-Berlian

Rata-rata@8 75.1 68.4* 62.9* 70.0* 74.9* 66.3 68.2 Acc 57.2 53.7 50.2 55.7 56.5 50.8 49.6

Ujian Terakhir Kemanusiaan

Acc 4.7 5.2 5.7 5.8 7.1 3.7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,2* 93,6 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86.6 81.8 79.4 Prompt Ketat 89.8 81.1 83.2* 87.6 87.4 88.0 84.3

Multi-Tantangan

Acc 54.1 31.4 34.0 46.8 49.0 36.4 39.5 Benar 31.0 27.7 13.2 15.9 22.8 42.3 23.3 Pass@1 76.4 72.4 67.6 74.8 74.6 69.8  

(Sumber: Moonshot AI)

Categories: IT Info