Firma AI Cina Moonshot AI mempunyai model sumber terbuka baru yang dipanggil Kimi K2 Thinking. Dilancarkan pada 6 November dari pangkalannya di Beijing, ia menandakan langkah utama dalam perlumbaan global untuk membina AI yang boleh bertindak sendiri.
Model ini adalah”ejen pemikiran.”Ia dapat menyelesaikan masalah keras dengan menggunakan alat digital lebih dari beratus-ratus langkah. Moonshot mahu mengalahkan saingannya di pasaran AI yang sukar. src=”https://winbuzzer.com/wp-content/uploads/2025/11/kimi-k2-benchmarks-humanitys-last-exam.jpg”width=”545″height=”605″Ibu pejabat, Moonshot Ai sedang membuat satu lagi permainan yang agresif di sektor AI. Ia direka sebagai”ejen berfikir”yang mampu untuk menunaikan langkah demi langkah untuk menyelesaikan masalah yang rumit. kedalaman. Seni bina yang mendasari kekal sebagai model campuran satu-trilion-parameter yang besar (MOE), mengaktifkan 32 bilion parameter untuk mana-mana token yang diberikan. panjang konteks 256k yang diperluaskan. Tingkap besar ini membolehkannya memproses dan menganalisis keseluruhan kod atau beratus-ratus halaman dokumen dalam satu pas, ciri penting untuk tugas perusahaan yang kompleks. Ini membolehkan model dijalankan dengan pengiraan ketepatan yang lebih rendah, dengan berkesan menggandakan kelajuan kesimpulannya sambil mengekalkan prestasi rakan-rakannya yang lebih tinggi. Peperiksaan (dengan alat), ujian pengetahuan peringkat pakar. Pada tugas carian dan pelayaran seperti Browsecomp, ia menjaringkan 60.2, dan pada ujian pengekodan agentik SWE-Bench disahkan, ia mencapai 71.3. (Lihat jadual penanda aras penuh pada akhir)
Digelar”Perang Seratus Model.”Model baru ini merupakan percubaan langsung untuk menuntut semula kepimpinan dengan memindahkan tumpuan kompetitif dari kelajuan dan harga kepada penalaran yang canggih dan prestasi agensi.
Pivot ini datang selepas tempoh yang mencabar bagi syarikat. Model Kimi K2 yang asalnya, yang dilancarkan pada bulan Julai, adalah permainan sumber terbuka yang berani.
Walau bagaimanapun, pasaran dengan cepat menjadi tepu dengan alternatif kos rendah, terutamanya dari saingan Deepseek, yang mencetuskan perang harga sengit. Ini secara langsung memberi kesan kepada pangkalan pengguna aplikasi sembang kimi Moonshot, yang menyaksikan slip ranking domestiknya. Pembekal chatbot AI di China. Walau bagaimanapun, tumpuan yang kuat ini terhadap prestasi pendahulu ini membawa risiko sendiri. Moonshot bertujuan untuk membuktikan kemenangan penanda arasnya diterjemahkan ke dalam utiliti dunia nyata yang diperlukan untuk memenangi pangsa pasar. Syarikat-syarikat bergerak melampaui chatbots yang hanya menjana cadangan teks atau kod.
Frontier yang baru adalah kecerdasan agentik: mewujudkan sistem autonomi yang dapat memahami matlamat peringkat tinggi, merumuskan pelan, dan menggunakan pelbagai alat digital untuk melaksanakannya. Pemikiran Kimi K2 direka dengan jelas untuk bersaing di arena ini.
Nilai pendekatan agentik ini sudah terbukti dalam dunia korporat. Dalam satu langkah mercu tanda, bank pelaburan Goldman Sachs mula mengendalikan Devin AI yang autonomi untuk mewujudkan”tenaga kerja hibrid.”Visinya adalah untuk jurutera manusia untuk mengawasi armada agen AI, mengubah sifat pembangunan perisian. Pelaksanaan yang membosankan tetapi definisi dan pengawasan masalah peringkat tinggi. Dengan pemikiran Kimi K2, syarikat itu membuat taruhan tinggi yang dalam dunia terbenam dengan model yang berkuasa, yang boleh membuat alasan yang paling berkesan akhirnya akan memenangi ekosistem pemaju. 47.4 44.7 44.7 lulus@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6
swe-bench disahkan
percubaan tunggal (ACC) 65.8 38.8 34.4 72.7* 72.5* 54.6-Pelbagai percubaan (ACC) 71.6–80.2* 79.4*–
Rangka Kerja Inhouse (ACC) 30.0–35.5 43.2 8.3-ACC 60. 70.6 69.1 57.0 75.0 81.8 74.8 64.3
Tau2 Airline
avg@4 56.5 39.0 26.5 55.5 60.0 54.5 42.5 76.5 72.7 70.5 76.2 75.6 80.1 74.5 AVG@64 69.6 59.4* 40.1* 43.4 48.2 46.5 61.3 AVG@64 49.5 46.7 24.7* 33. 94.4 92.4 95.4 AVG@32 38.8 27.5 11.9 15.9 15.9 19.4 34.7 AVG@16 74.3 74.7 48.6 60.4 57.6 56.6 75.0
Polymath-en
avg@4. Zebralogic
acc 89.0 84.0 37.7* 79.7 58.3 57.9 Acc 89.5 88.9 83.3* 66.3 68.2 ACC 57.2 53.7 50.2 55.7 56.5 50.8 49.6
Peperiksaan terakhir manusia
ACC 4.7 5.2 5.7 5.8 7.1 3.7 5.6 EM 89.5 89.4 87. 89.2* 93.6 94.2 92.4 90.6 EM 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 Prompt ketat 89.8 81.1 83.2* 87.6 87.4 88.0 36.4 39.5 Betul 31.0 27.7 13.2 15.9 22.8 42.3 23.3 Pass@1 76.4 72.4 67.6 74.8 74.6 69.8
(Sumber: Moonshot AI)