Intsik AI firm na si Moonshot AI ay may bagong modelo ng open-source na tinatawag na Kimi K2 Thinking. Inilunsad noong Nobyembre 6 mula sa base nito sa Beijing, minarkahan nito ang isang pangunahing hakbang sa pandaigdigang lahi upang magtayo ng AI na maaaring kumilos sa sarili nito.

Ang modelo ay isang”ahente ng pag-iisip.”Maaari itong malutas ang mga mahirap na problema sa pamamagitan ng paggamit ng mga digital na tool sa daan-daang mga hakbang. Nais ni Moonshot na talunin ang mga karibal nito sa matigas na merkado ng AI ng Tsina. src=”data: imahe/svg+xml; nitro-empty-id=mty2mdo4ndq=-1; base64, phn2zyb2awv3qm94psiwidagntq1idyw NSIGD2LKDGG9IJU0NSIGAGVPZ2H0PSI2MDUIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2zyi+PC9ZDMC+”>

isang’ahente ng pag-iisip’na binuo para sa kumplikadong pangangatuwiran at paggamit ng tool Ang pag-iisip ng K2 hindi lamang bilang isang pag-upgrade , ngunit bilang isang bagong klase ng modelo na nakatuon sa autonomous na pagpapatupad. Ito ay dinisenyo bilang isang”ahente ng pag-iisip”na may kakayahang hakbang-hakbang na pangangatuwiran upang malutas ang mga kumplikadong problema. lalim Ang pinagbabatayan nitong arkitektura ay nananatiling isang napakalaking modelo ng one-trilyon-parameter na pinaghalong (MOE) na modelo, ayon sa 32 bilyong mga parameter para sa anumang naibigay na token. 256k haba ng konteksto. Ang napakalaking window na ito ay nagbibigay-daan upang maproseso at pag-aralan ang buong mga codebases o daan-daang mga pahina ng mga dokumento sa isang solong pass, isang mahalagang tampok para sa mga kumplikadong gawain ng negosyo. Pinapayagan nito ang modelo na tumakbo na may mas mababang mga kalkulasyon ng katumpakan, na epektibong pagdodoble ng bilis ng pag-iintindi habang pinapanatili ang pagganap ng mga mas mataas na katapat na katapat nito. mga tool), isang pagsubok ng kaalaman sa antas ng dalubhasa. Sa mga gawain sa paghahanap at pag-browse sa ahente tulad ng Browsecomp, umiskor ito ng 60.2, at sa pag-verify ng ahente ng coding ng ahente, umabot ito sa 71.3. (Tingnan ang buong talahanayan ng benchmark sa dulo)

Ang”digmaan ng isang daang mga modelo.”Ang bagong modelong ito ay isang direktang pagtatangka upang mabawi ang pamumuno sa pamamagitan ng paglilipat ng mapagkumpitensyang pokus mula sa bilis at presyo hanggang sa sopistikadong pangangatuwiran at pagganap ng ahente. Ang orihinal na modelo ng Kimi K2, na inilunsad noong Hulyo, ay isang naka-bold na open-source play. Ito ay direktang nakakaapekto sa base ng gumagamit ng application ng Kimi chat ng Moonshot, na nakita ang domestic ranggo na slip. AI Chatbot provider sa China. Gayunpaman, ang matinding pokus na ito sa pagganap ng leaderboard ay nagdadala ng sariling mga panganib. Nilalayon ng Moonshot na patunayan ang mga panalo ng benchmark na isalin sa real-world utility na kinakailangan upang manalo ng pagbabahagi ng merkado. Ang mga kumpanya ay gumagalaw na lampas sa mga chatbots na simpleng bumubuo ng mga mungkahi ng teksto o code. Ang pag-iisip ng Kimi K2 ay malinaw na idinisenyo upang makipagkumpetensya sa arena na ito. Sa isang landmark move, ang bangko ng pamumuhunan na si Goldman Sachs ay nagsimulang piloto ang autonomous AI coder na si Devin upang lumikha ng isang”hybrid workforce.”Its vision is for human engineers to supervise fleets of AI agents, transforming the nature of software development.

Goldman’s tech chief, Marco Argenti, explained the strategy, stating, “it’s really about people and AIs working side by side. Engineers are going to be expected to have the ability to really describe problems in a coherent way and turn it into prompts…”

Such a shift reflects a future where the primary human skill is not nakakapagod na pagpapatupad ngunit mataas na antas ng kahulugan ng problema at pangangasiwa. Sa pag-iisip ni Kimi K2, ang kumpanya ay gumagawa ng isang mataas na pusta na sa isang mundo na awash na may mga makapangyarihang modelo, ang isa na maaaring mangatuwiran na pinaka-epektibo ay sa huli ay manalo ng ecosystem ng developer. 47.4 44.7 44.7 Pass@1 27.1 24.0 11.3 15.3 19.6 19.5 19.5 Pass@1 85.7 83.1 78.2 88.6 89.6 86.7 85.6. Terminus (ACC) 25.0 16.3 6.6–30.3 16.8 56.5 39.0 26.5 55.5 60.0 54.5 42.5 AVG@64 49.5 46.7 24.7* 33.1* 33.9* 37.0 46.6 ACC 97.4 94.0* 91.2* 94.0 94.4 92.4 95.4 AVG@32 38.8 27.5 11.9 15.9 15.9 19.4 34.7 AVG@16 74.3 74.7 48.6 60.4 57.6 56.6 75

polymath-en

avg@4 65.1 59.5 51.9 52.8 49.8 54.0 49.9 AVG@8 75.1 68.4* 62.9* 70.0* 74.9* 66.3 68.2 ACC 57.2 53.7 50.2 55.7 56.5 50.8 49.6

mmlu-redux

em 92.7 90.5 89.2* 93.6 94.2 92.4 90.6 EM 81.1 81.2* 77.3 83.7 86.6 81.8 79.4 Prompt Strict 89.8 81.1 83.2* 87.6 87.4 88.0 84.3 46.8 49.0 36.4 39.5 Tamang 31.0 27.7 13.2 15.9 22.8 42.3 23.3 Pass@1 76.4 72.4 67.6 74.8 74.6 69.8

Categories: IT Info