meta ay lumilipat ang mga goalpost sa lahi ng coding ng AI. Inilabas ng kumpanya ang Code World Model (CWM), A malakas na 32-bilyon-parameter system Mga gawa. src=”data: imahe/svg+xml; nitro-empty-id=mty1mdoxmziw-1; base64, phn2zyB2AWV3QM94PSIWIDAGMTE2OSA4MJ Yiihdpzhropsixmty5iibozwlnahq9ijgyniigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Ang layunin ng
meta, ayon sa mga mananaliksik nito, ay upang tulay ang agwat sa pagitan ng kung ano ang hitsura ng code at kung ano talaga ang ginagawa nito kapag naisakatuparan. Tulad ng ipinaliwanag ng isang mananaliksik,”Upang makabisado ang pag-cod, dapat maunawaan ng isa kung ano ang hitsura ng code ngunit kung ano ang ginagawa nito kapag naisakatuparan.”Sa halip na pag-aralan lamang ang static code, ang modelo ay natutunan mula sa higit sa 120 milyong”mga bakas ng pagpapatupad”ng mga programa ng Python. Sa pamamagitan ng pag-unawa sa mga kahihinatnan ng bawat linya ng code, ang CWM ay maaaring magsagawa ng mga gawain na lampas sa simpleng henerasyon. Ang mas malalim na pangangatuwiran na ito ay kung ano ang nagtatakda nito sa isang masikip na larangan. Sa napatunayan na SWE-Bench, isang hinihingi na pagsubok ng real-world software engineering, nakamit ng modelo ang isang 53.9% na marka ng base, na tumataas sa isang kahanga-hangang 65.8% na may mga pagsubok sa oras ng pagsubok. Well lampas sa isang solong pagsubok. Ayon sa papel ng pananaliksik ng Meta, nagpapakita rin ang CWM ng malawak na kakayahan sa pamamagitan ng pagmamarka ng 68.6% sa LiveCodebench, 96.6% sa Math-500, at 76% sa Aime 2024 matematika na Olympiad. Ang CWM ay partikular na higit sa mga gawain na nangangailangan ng isang malalim na pag-unawa sa pag-uugali ng programa.
Bukod dito, sa isang benchmark ng nobela na tinatawag na Halteval, nakamit ng CWM ang isang kamangha-manghang 94% na kawastuhan sa paghula kung ang isang programa ay magtatapos o maiipit sa isang walang hanggan na loop. Ang mataas na marka ng modelo ng 94.3% sa benchmark ng Cruxeval para sa pag-unawa sa code ay higit na binibigyang diin ang tagumpay ng diskarte ng Meta. (15)
Ang tag-araw ng 2025 ay nakakita ng isang galit na galit na labanan para sa tuktok na puwesto sa SWE-Bench, kasama ang Claude Opus ng Anthropic na 4.1 na na-eclipsed ng GPT-5 ng OpenAi ng dalawang araw. Nabanggit ni Mario Rodriguez ni Github na”sa maagang pagsubok, ang Grok Code Fast ay ipinakita ang parehong bilis at kalidad nito sa mga gawain ng ahente ng coding.”
Sa huli ay higit pa kaysa sa isang posisyon ng leaderboard. Kamakailan lamang ay inilunsad ni Openai ang GPT-5-CODEX, isang bersyon ng coding ng GPT-5 na maaaring gumana nang awtonomiya nang maraming oras. Nagpakita si Gemini ng superhuman na paglutas ng problema.
dr. Si Bill Poucher, ang direktor ng ICPC, ay nag-frame ng mga resulta na ito bilang isang mahalagang sandali, na nagsasabing,”Matagumpay na sumali si Gemini sa arena na ito, at nakamit ang mga resulta ng antas ng ginto, ay nagmamarka ng isang pangunahing sandali sa pagtukoy ng mga tool ng AI at mga pamantayang pang-akademiko na kinakailangan para sa susunod na henerasyon.”href=”https://huggingface.co/facebook/cwm”target=”_ blangko”na magagamit sa pamayanan ng pananaliksik sa yakap na mukha . Ang modelo, na maaaring tumakbo sa isang solong NVIDIA H100 GPU, ay hindi nakatutok para sa pangkalahatang chat, na binibigyang diin ang layunin nito bilang isang tool upang isulong ang agham ng AI mismo.