meta está cambiando los postes en la carrera de codificación de IA. La compañía ha lanzado su modelo de código Code World (CWM), a poderoso 32 billones-parameter diseñando solo para diseñar solo, pero no escribir, sino que no le escriba el código, sino que no le escriba el código, sino que no le escriba solo, pero que no lo escriba, no sea solo el código, sino que no le guste. obras.

lanzado para una investigación no comercial, CWM actúa como un”depurador neuronal”, simulando la lógica de un programa antes de que se ejecute. src=”datos: imagen/svg+xml; nitro-tempy-id=mty1mdoxmziw-1; base64, phn2zyb2awv3qm94psiwidagmte2osa4mj Yiihdpzhropsixmty5iibozwlnahq9ijgyniigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>> El objetivo de

Meta, según sus investigadores, es cerrar la brecha entre cómo se ve el código y lo que realmente hace cuando se ejecuta. Como explicó un investigador:”Para la codificación maestra, uno debe comprender no solo cómo se ve el código, sino cómo hace cuando se ejecuta”.

un”depurador neural”que simula la ejecución del código

Las capacidades únicas de CWM se encuentran de su novedoso proceso de entrenamiento. En lugar de solo analizar el código estático, el modelo aprendió de más de 120 millones de”rastros de ejecución”de los programas de Python.

Estos datos le permitieron observar los cambios paso a paso en las variables de un programa, dándole un modelo profundo, causa y efecto de la lógica del software. Al comprender las consecuencias de cada línea de código, CWM puede realizar tareas más allá de la simple generación.

puede predecir los resultados del programa, identificar bucles infinitos e incluso analizar la complejidad algorítmica. Este razonamiento más profundo es lo que lo distingue en un campo lleno de gente.

rendimiento competitivo en la arena de codificación AI

A pesar de su enfoque diferente, CWM se mantiene propio en los puntos de vista clave de la industria. En SWE-Bench Verified, una prueba exigente de ingeniería de software del mundo real, el modelo logró un puntaje base del 53.9%, aumentando a un impresionante 65.8% con escala de tiempo de prueba.

Este rendimiento lo coloca por delante de muchos rivales de código abierto con parámetros similares y lo convierte en competitivo con los sistemas de captaciones muy grandes como GPT-5 y Claude-4. mucho más allá de una sola prueba. Según el trabajo de investigación de Meta, CWM también demuestra una amplia competencia al calificar 68.6% en LivecodeBench, 96.6% en Math-500, y el 76% en la Olimpiada Matemática AIME 2024. CWM se destaca particularmente en las tareas que requieren una comprensión profunda del comportamiento del programa.

en el propio Benchmark de bigobench , superó sistemáticamente a los competidores de la competencia en el complejidad de tiempo de los algoritios, un titular de la validación directa de su entrenamiento.

Además, en un nuevo punto de referencia llamado Halteval, CWM logró una notable precisión del 94% al predecir si un programa terminaría o se atascaría en un bucle infinito.

La capacidad de razonar sobre el flujo de ejecución de un programa, en lugar de solo su sintaxis, es un objetivo de diseño central. El puntaje alto del modelo de 94.3% en el punto de referencia de Cruxeval para la comprensión del código subraya aún más el éxito del enfoque de Meta.

El fuerte rendimiento en este conjunto diverso de puntos de referencia orientados a la computación valida el enfoque en las trazas de ejecución y la posición de CWM de CWM como una nueva herramienta poderosa para la investigación de IA. (15)

navegando por las”guerras de referencia”más amplias

La entrada de Meta se produce cuando la industria lidia con las limitaciones de los puntajes de referencia. The summer of 2025 saw a frantic battle for the top spot on SWE-bench, with Anthropic’s Claude Opus 4.1 being eclipsed by OpenAI’s GPT-5 just two days later.

Meanwhile, xAI’s `grok-code-fast-1` pivoted to prioritize speed and cost, a move that acknowledged growing market skepticism of benchmark leaders. Mario Rodríguez de Github señaló que”en las pruebas tempranas, Grok Code Fast ha mostrado su velocidad y calidad en las tareas de codificación de agente”.

Esta búsqueda de puntajes altos a veces ha llevado a los casquillos del mundo real, como el lanzamiento de errores de GPT-5.

El enfoque de meta en el robuste de metas en el mundo, como la respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta directa, lo que parece ser una respuesta. más que una posición de la tabla de clasificación.

Abierto para la investigación, pero no la producción

El telón de fondo para el lanzamiento de CWM es un panorama de herramientas cada vez más especializadas y poderosas. Operai lanzó recientemente GPT-5-Codex, una versión de codificación de GPT-5 que puede funcionar de forma autónoma durante horas.

su líder de producto, Alexander Empiricos, destacó su inteligencia adaptativa, indicando que”GPT-5-Codex Géminis demostró la resolución de problemas sobrehumanas.

dr. Bill Poucher, el director de ICPC, enmarcó estos resultados como un momento crucial, diciendo:”Géminis uniéndose con éxito en esta arena y lograr resultados a nivel de oro, marca un momento clave para definir las herramientas de IA y los estándares académicos necesarios para la próxima generación”. href=”https://huggingface.co/facebook/cwm”target=”_ en blanco”> Disponible para la comunidad de investigación sobre la cara de abrazo . El modelo, que puede ejecutarse en un solo NVIDIA H100 GPU, no está sintonizado para el chat general, subrayando su propósito como una herramienta para avanzar en la ciencia de la IA.

Categories: IT Info