Meta在AI編碼競賽中轉移了球門柱。該公司已發布其代碼世界模型(CWM),A
發布了用於非商業研究的,CWM是“神經調試器”,在該程序運行之前模擬了該程序的邏輯。
這種方法標誌著Google和Openai等競爭對手的戰略性樞紐,他們最近專注於最近在贏得編碼競賽的競賽中。 src=“數據:image/svg+xml; nitro-empty-id=mty1mdoxmziw-1; base64,phn2zyb2AWV3QM94PSIWIDAGMTE2OSA4MJ yiihdpzhropsixmty5iibozwlnahq9ijgyniigeg1sbnm9imh0dha6ly93d3 cudzmub3jnlziwmdavc3znij48l3n2n2zzzzz4=“>”>根據其研究人員的說法,
Meta的目標是彌合代碼的外觀與執行時實際採取的實際操作之間的差距。正如一位研究人員解釋的那樣:“要對主編碼,必須不僅要了解執行時的代碼,而且必須了解它的作用。 ”
‘神經調試器’模擬代碼執行
cwm的獨特能力源於其新穎的培訓過程。該模型不僅分析了靜態代碼,還從Python程序的1.2億“執行軌跡”中學到了學到的模型。
此數據使其可以觀察程序變量的分步變化,從而使其具有深厚的,因果邏輯的深層,因果效應。通過了解每條代碼的後果,CWM可以執行簡單生成以外的任務。
它可以預測程序結果,識別無限循環,甚至可以分析算法複雜性。這種更深層次的推理是在擁擠的領域中與眾不同的原因。
在AI編碼領域的競爭性能
儘管其重點不同,但CWM仍在關鍵行業基准上。 On SWE-bench Verified, a demanding test of real-world software engineering, the model achieved a 53.9% base score, rising to an impressive 65.8% with test-time scaling.
This performance places it ahead of many open-source rivals with similar parameter counts and makes it competitive with much larger proprietary systems like GPT-5 and Claude Sonnet-4.
The model’s capabilities extend well超出了一次測試。根據META的研究論文,CWM還通過在Livecodebench上得分68.6%,數學500佔96.6%,AIME 2024數學奧林匹克運動會的得分為76%。
這種多功能能力不僅限於單個任務,因此,對這種多功能性的技能不斷構建。 CWM尤其在需要深入了解程序行為的任務中表現出色。
在Meta的 bigobench-benchmark 中,它可以系統地競爭競爭競爭,它可以系統地競爭競爭,以預測Algorith的效果
能夠推理程序的執行流,而不是僅僅是其語法,而不是其語法。該模型在CruxeVal基準測試中的高分為94.3%,以進一步強調了Meta方法的成功。
在這套各種以計算為導向的基準測試中,強勁的性能驗證了對執行軌跡和CEMENTS CWM CWM作為AI研究的強大新工具的關注。 (15)
瀏覽更廣泛的“基準戰爭”
元參賽作品是因為行業努力應對基準分數的局限性。 2025年夏天,在兩天后,擬人化的Claude Opus 4.1在Swe Besch上的最高鬥爭被狂熱地戰鬥。 Github的Mario Rodriguez指出,“在早期測試中,Grok Code Fast在代理編碼任務中既表現出了速度和質量。 ”
有時對高分的追求有時導致了現實世界中的跌跌撞撞,例如GPT-5的笨拙啟動。