Meta está mudando as metas na corrida de codificação da IA. A empresa lançou seu Code World Model (CWM), A poderoso 32lion Trabalhos. src=”Data: imagem/svg+xml; nitro-inempty-id=mty1mdoxmziw-1; base64, phn2zyb2awv3qm94psiWidAgMte2OSA4MJ Yiihdpzhropsixmty5iiBozwlnahq9ijgyniigEg1sbnm9Imh0dHa6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> O objetivo da
Meta, de acordo com seus pesquisadores, é preencher a lacuna entre como o código se parece e o que realmente faz quando executado. Como um pesquisador explicou:”Para dominar a codificação, é preciso entender não apenas como é o código, mas o que faz quando executado”. Em vez de apenas analisar o código estático, o modelo aprendeu com mais de 120 milhões de”traços de execução”dos programas Python. Ao entender as consequências de cada linha de código, o CWM pode executar tarefas além da geração simples.
Pode prever os resultados do programa, identificar loops infinitos e até analisar a complexidade algorítmica. Esse raciocínio mais profundo é o que o diferencia em um campo lotado. Na verificação da bancada SWE, um teste exigente da engenharia de software do mundo real, o modelo alcançou uma pontuação básica de 53,9%, subindo para um impressionante 65,8% com escala de tempo de teste. estender muito além de um único teste. De acordo com o artigo de pesquisa da Meta, o CWM também demonstra uma ampla competência, pontuando 68,6% no LivecodeBench, 96,6% em Math-500 e 76% no AIME 2024 Mathematical Olympiad. O CWM se destaca particularmente em tarefas que exigem uma compreensão profunda do comportamento do programa. Além disso, em uma nova referência chamada Halteval, a CWM alcançou uma precisão notável de 94% ao prever se um programa encerraria ou ficaria preso em um loop infinito. A alta pontuação do modelo de 94,3% na referência cruxval para a compreensão de código ressalta ainda mais o sucesso da abordagem da Meta. (15)
Navegando pelas’guerras de referência’mais ampla
A entrada da Meta ocorre quando a indústria enfrenta as limitações das pontuações de referência. O verão de 2025 viu uma batalha frenética pelo primeiro lugar no SWE-banch, com o Claude Opus 4.1 do Anthropic sendo eclipsado pelo GPT-5 do Openai apenas dois dias depois. Mario Rodriguez, do Github, observou que”nos testes antecipados, o código GROK FAST mostrou sua velocidade e qualidade nas tarefas de codificação agêntica”. Mais do que uma posição de tabela de classificação. O OpenAI lançou recentemente o GPT-5-Codex, uma versão codificadora do GPT-5 que pode funcionar autonomamente por horas. Gêmeos demonstrou solução de problemas sobre-humana.
DR. Bill Boucher, diretor do ICPC, enquadrou esses resultados como um momento crucial, dizendo: “Gêmeos se juntam a essa arena e alcançando resultados no nível do ouro, marca um momento importante na definição das ferramentas de IA e os padrões acadêmicos necessários para a próxima geração. href=”https://huggingface.co/facebook/cwm”Target=”_ Blank”> Disponível para a comunidade de pesquisa em abraçar o rosto . O modelo, que pode ser executado em uma única GPU da NVIDIA H100, não é ajustada para bate-papo geral, destacando seu objetivo como uma ferramenta para avançar a ciência da própria IA.