Meta sedang mengalihkan tiang gawang dalam perlumbaan pengekodan AI. Syarikat itu telah mengeluarkan Model Dunia Kodnya (CWM), A
Prestasi kompetitif di AI Coding Arena
Walaupun tumpuannya yang berbeza, CWM memegang sendiri pada tanda aras industri utama. Pada SWE-Bench yang disahkan, ujian menuntut kejuruteraan perisian dunia sebenar, model mencapai skor asas 53.9%, meningkat kepada 65.8% yang mengagumkan dengan skala ujian. Keupayaan melangkaui satu ujian. Menurut kertas penyelidikan Meta, CWM juga menunjukkan kecekapan yang luas dengan menjaringkan 68.6% pada LiveCodeBench, 96.6% pada matematik-500, dan 76% pada AIME 2024 Matematik Olimpik. CWM terutamanya cemerlang dalam tugas-tugas yang memerlukan pemahaman yang mendalam tentang tingkah laku program.
Pada meta sendiri Bigobench Benchmark
Selain itu, pada penanda aras novel yang dipanggil Halteval, CWM mencapai ketepatan 94% yang luar biasa dalam meramalkan sama ada program akan menamatkan atau terjebak dalam gelung tak terhingga. Skor tinggi model 94.3% pada penanda aras cruxeval untuk pemahaman kod selanjutnya menggariskan kejayaan pendekatan META. (15). Musim panas tahun 2025 menyaksikan pertempuran panik untuk tempat teratas di Swe-tench, dengan Claude Opus 4.1 Anthropic yang dilepaskan oleh GPT-5 Openai hanya dua hari kemudian. Mario Rodriguez dari Github menyatakan bahawa”Pada ujian awal, kod grok cepat telah menunjukkan kedua-dua kelajuan dan kualiti dalam tugas pengekodan agensi.”
Akhirnya lebih penting daripada kedudukan papan pendahulu. Openai baru-baru ini melancarkan GPT-5-CODEX, versi pengekodan GPT-5 yang boleh berfungsi secara autonomi selama berjam-jam. Gemini menunjukkan penyelesaian masalah superhuman.
dr. Bill Poucher, pengarah ICPC, membingkai hasil ini sebagai momen penting, berkata,”Gemini berjaya menyertai arena ini, dan mencapai keputusan peringkat emas, menandakan momen utama dalam menentukan alat AI dan piawaian akademik yang diperlukan untuk generasi akan datang. href=”https://huggingface.co/facebook/cwm”target=”_ blank”> tersedia untuk komuniti penyelidikan pada muka pelukan . Model yang boleh dijalankan pada GPU NVIDIA H100 tunggal, tidak ditala untuk sembang umum, menggariskan tujuannya sebagai alat untuk memajukan sains AI itu sendiri.