Meta在AI編碼競賽中轉移了球門柱。該公司已發布其代碼世界模型(CWM),A

發布了用於非商業研究的,CWM是“神經調試器”,在該程序運行之前模擬了該程序的邏輯。

這種方法標誌著Google和Openai等競爭對手的戰略性樞紐,他們最近專注於最近在贏得編碼競賽的競賽中。 src=“數據:image/svg+xml; nitro-empty-id=mty1mdoxmziw-1; base64,phn2zyb2AWV3QM94PSIWIDAGMTE2OSA4MJ yiihdpzhropsixmty5iibozwlnahq9ijgyniigeg1sbnm9imh0dha6ly93d3 cudzmub3jnlziwmdavc3znij48l3n2n2zzzzz4=“>”>根據其研究人員的說法,

Meta的目標是彌合代碼的外觀與執行時實際採取的實際操作之間的差距。正如一位研究人員解釋的那樣:“要對主編碼,必須不僅要了解執行時的代碼,而且必須了解它的作用。 ”

‘神經調試器’模擬代碼執行

cwm的獨特能力源於其新穎的培訓過程。該模型不僅分析了靜態代碼,還從Python程序的1.2億“執行軌跡”中學到了學到的模型。

此數據使其可以觀察程序變量的分步變化,從而使其具有深厚的,因果邏輯的深層,因果效應。通過了解每條代碼的後果,CWM可以執行簡單生成以外的任務。

它可以預測程序結果,識別無限循環,甚至可以分析算法複雜性。這種更深層次的推理是在擁擠的領域中與眾不同的原因。

在AI編碼領域的競爭性能

儘管其重點不同,但CWM仍在關鍵行業基准上。 On SWE-bench Verified, a demanding test of real-world software engineering, the model achieved a 53.9% base score, rising to an impressive 65.8% with test-time scaling.

This performance places it ahead of many open-source rivals with similar parameter counts and makes it competitive with much larger proprietary systems like GPT-5 and Claude Sonnet-4.

The model’s capabilities extend well超出了一次測試。根據META的研究論文,CWM還通過在Livecodebench上得分68.6%,數學500佔96.6%,AIME 2024數學奧林匹克運動會的得分為76%。

這種多功能能力不僅限於單個任務,因此,對這種多功能性的技能不斷構建。 CWM尤其在需要深入了解程序行為的任務中表現出色。

在Meta的 bigobench-benchmark 中,它可以系統地競爭競爭競爭,它可以系統地競爭競爭,以預測Algorith的效果此外,在一個名為Halteval的新基准上,CWM在預測程序是終止還是陷入無限循環中的94%精度。

能夠推理程序的執行流,而不是僅僅是其語法,而不是其語法。該模型在CruxeVal基準測試中的高分為94.3%,以進一步強調了Meta方法的成功。

在這套各種以計算為導向的基準測試中,強勁的性能驗證了對執行軌跡和CEMENTS CWM CWM作為AI研究的強大新工具的關注。 (15)

瀏覽更廣泛的“基準戰爭”

元參賽作品是因為行業努力應對基準分數的局限性。 2025年夏天,在兩天后,擬人化的Claude Opus 4.1在Swe Besch上的最高鬥爭被狂熱地戰鬥。 Github的Mario Rodriguez指出,“在早期測試中,Grok Code Fast在代理編碼任務中既表現出了速度和質量。 ”

有時對高分的追求有時導致了現實世界中的跌跌撞撞,例如GPT-5的笨拙啟動。

開放的研究不僅僅是排行榜的位置。 OpenAI最近推出了GPT-5-Codex,這是GPT-5的編碼版本,可以自主工作數小時。

它的產品負責人亞歷山大·艾默里科斯(Alexander Embiricos)強調了其適應性智能,並指出,“ gpt-5-Codex可以決定要花費一個小時的時間來確定press the prainge the prains of prainge the prains of prains of prainge。雙子座展示了超人類問題解決。

DR。 ICPC主管比爾·帕奇爾(Bill Poucher)將這些結果定為關鍵時刻,他說:“雙子座成功加入了這個舞台,並取得了金水平的結果,這標誌著定義下一代所需的AI工具和學術標準的關鍵時刻。” href=“ https://huggingface.co/facebook/cwm” target=“ _ blank”>可供研究社區擁抱面孔。該模型可以在單個NVIDIA H100 GPU上運行,並未調整為一般聊天,強調其作為推進AI本身科學的工具的目的。

Categories: IT Info