Para contrarrestar el lanzamiento de Gemini 3 Pro de Google con un enfoque en la resistencia sobre el tamaño bruto, OpenAI lanzó GPT-5.1-Codex-Max el miércoles.
Al presentar la”compactación”, el nuevo modelo emplea una técnica que le permite condensar la memoria y mantener sesiones de codificación autónomas durante más de 24 horas. Al romper el”muro de la memoria”que normalmente detiene las tareas de largo plazo, OpenAI afirma que el modelo reduce el uso de tokens en un 30 % y garantiza una puntuación máxima del 77,9 % en el punto de referencia SWE-bench Verified.
Esta actualización, que se implementará de inmediato para los usuarios de Codex, indica un cambio estratégico hacia la eficiencia y el soporte nativo de Windows. Sigue de cerca los pasos del lanzamiento de GPT-5.1, que buscaba estabilizar la plataforma después de un debut inicial difícil de GPT-5.
El motor Endurance: compactación y autonomía las 24 horas
Bajo el capó, la arquitectura se basa en un enfoque novedoso para la gestión del contexto que difiere fundamentalmente del método de fuerza bruta de simplemente expandir la ventana de contexto.
Competidores como Google presionan por capacidades de millones de tokens para mantener bases de código completas en la memoria activa, pero OpenAI ha introducido la”compactación”.
Funciona de manera similar a un motor altamente recolector de basura inteligente para la capacidad de atención del modelo, este mecanismo resume y poda activamente su propia historia en lugar de permitir que la ventana de contexto se llene con desechos de conversación irrelevantes.
Retener solo los cambios de estado críticos y la lógica de decisión permite que el sistema opere a través de múltiples ventanas de contexto sin perder el hilo del objetivo original.
Al describir el avance, el equipo de ingeniería de OpenAI señaló que “GPT‑5.1-Codex-Max está diseñado para un trabajo detallado y de larga duración. Es nuestro primer modelo entrenado de forma nativa para operar en múltiples ventanas contextuales a través de un proceso llamado compactación”, destacando su capacidad para mantener la coherencia donde las iteraciones anteriores alucinarían o se repetirían.
Al abordar el problema del”agente perezoso”directamente, este cambio arquitectónico evita que los modelos se degraden en el rendimiento a medida que aumenta la duración de la conversación.
Las evaluaciones internas citadas por la compañía sugieren un aumento dramático en la resistencia: “En nuestras evaluaciones internas, hemos observado GPT‑5.1-Codex-Max trabaja en tareas durante más de 24 horas. Iterará persistentemente en su implementación, corregirá fallas de prueba y, en última instancia, entregará un resultado exitoso”.
Los desarrolladores empresariales ahora pueden asignar un trabajo de refactorización complejo el viernes por la noche y esperar que el agente continúe trabajando durante el fin de semana, ejecutando pruebas de manera iterativa y corrigiendo sus propios errores hasta que se apruebe la compilación.
Esta resistencia viene acompañada de ganancias de eficiencia. No reprocesar constantemente el historial completo y sin comprimir de una sesión larga significa que el modelo consume significativamente menos recursos.
En el punto de referencia SWE-bench Verified, la compañía señala que”GPT‑5.1-Codex-Max con un esfuerzo de razonamiento’medio’logra un mejor rendimiento que GPT-5.1-Codex… mientras usa un 30% menos de tokens de pensamiento”.
Los usuarios de API de alto volumen verán una reducción del 30% en el consumo de tokens que se traduce directamente para reducir los costos operativos, un factor crítico a medida que la IA pasa de la creación de prototipos experimentales a los flujos de trabajo de producción.
Las mejoras en la velocidad son igualmente mensurables. Las tareas de codificación del mundo real ahora se ejecutan entre un 27 % y un 42 % más rápido que con el modelo GPT-5.1-Codex anterior.
Esta aceleración, que aborda una queja común con respecto a los modelos de razonamiento, reduce el tiempo de”pensamiento”necesario antes de producir código. La optimización de los tokens de razonamiento permite a OpenAI equilibrar la profundidad de pensamiento necesaria para una lógica compleja con la capacidad de respuesta necesaria para el desarrollo interactivo.
Las métricas de rendimiento validan estos cambios arquitectónicos. Con una puntuación del 77,9 % en SWE-bench Verified, el modelo supera el 73,7 % de su predecesor y establece un nuevo récord interno.
En la prueba comparativa SWE-Lancer IC SWE, que simula las tareas de los contribuyentes individuales, alcanzó el 79,9 %, lo que sugiere que puede manejar la mayoría de los tickets de rutina asignados a ingenieros junior.
Además, una puntuación del 58,1 % en TerminalBench 2.0 indica una sólida capacidad para navegar por interfaces de línea de comandos, un área notoriamente difícil para los LLM debido a la naturaleza implacable de los errores de sintaxis en entornos de terminales.
La guerra de los ecosistemas: Windows Focus y la rivalidad de Géminis
El momento oportuno rara vez es una coincidencia en el sector de la IA. Esta versión, que llega exactamente 24 horas después de que Google presentara Gemini 3 Pro, crea una comparación directa inmediata.
La batalla de los puntos de referencia ahora es muy fina. El 77,9% de Codex-Max en SWE-bench Verified supera por poco la cifra de 76,2% reportada para Gemini 3 Pro, neutralizando efectivamente el reclamo de Google de la corona de la codificación menos de un día después de su creación.
Más allá de los puntos de referencia, OpenAI está haciendo una jugada calculada para el mercado empresarial al romper con la tradición centrada en Unix de la industria.
OpenAI señaló que “también es el primero”Históricamente, los modelos de codificación de IA se han entrenado principalmente en repositorios de Linux y macOS, lo que genera fricciones al generar scripts de PowerShell o navegar por el sistema de archivos de Windows. La capacitación explícita para Windows alinea más estrechamente a OpenAI con la enorme base de instalación corporativa de su socio principal, Microsoft.
El precio sigue siendo el frente más polémico en este conflicto. Google lanzó Gemini 3 Pro con una agresiva estrategia de precios de aproximadamente $0,10 por millón de tokens de entrada.
En contraste, la línea base GPT-5.1 es significativamente más alta, alrededor de $1,25 por millón de tokens. Si bien OpenAI argumenta que el modelo”Max”es más barato de ejecutar debido a la eficiencia de sus tokens, la disparidad de costos unitarios brutos es más de 10 veces mayor.
Tal brecha ejerce una inmensa presión sobre OpenAI para demostrar que sus capacidades de”compactación”y razonamiento ofrecen un valor superior por dólar, en lugar de solo un rendimiento superior por token.
La disponibilidad es inmediata para los usuarios dentro del ecosistema OpenAI. El modelo está listo para su implementación en Codex CLI, extensiones IDE y entornos de nube para suscriptores Plus, Pro y Enterprise.
Sin embargo, el acceso a API actualmente figura como”próximamente”. Este retraso, que crea una barrera temporal para los desarrolladores que crean herramientas personalizadas o aplicaciones de terceros, los obliga a permanecer dentro de las interfaces propias de OpenAI por ahora.
Cambiar la narrativa que rodea a estas herramientas también es una prioridad. Denis Shiryaev de JetBrains calificó el nuevo modelo como”genuinamente agente, el modelo más naturalmente autónomo que he probado”, lo que refleja un alejamiento de los”copilotos”que sugieren fragmentos hacia”agentes”que administran los flujos de trabajo.
Crucialmente, un copiloto te ayuda a escribir más rápido; un agente le permite dejar de escribir por completo.
El techo de seguridad: riesgos biológicos y defensa de datos
Una mayor autonomía conlleva un mayor riesgo. La Tarjeta del sistema lanzada junto con el modelo revela una escalada significativa en la clasificación de seguridad.
Por primera vez en un lanzamiento centrado en la codificación, el Grupo Asesor de Seguridad confirmó que “tratamos GPT-5.1-Codex-Max como de alto riesgo en el dominio biológico y químico, y continuamos aplicando el correspondiente salvaguardias.”
Tarjeta del sistema GPT-5.1-Codex-Max
Derivada de la capacidad del modelo para planificar y solucionar problemas de protocolos complejos de laboratorio húmedo, esta clasificación destaca un nuevo peligro. Un agente capaz de depurar de forma autónoma un script de Python también puede, en teoría, depurar un protocolo para sintetizar un patógeno si tiene acceso a la literatura y al equipo adecuados.
La ciberseguridad sigue siendo otra área de intenso escrutinio. El Grupo Asesor de Seguridad señaló que”GPT-5.1-Codex-Max es el modelo con mayor capacidad cibernética que hemos implementado hasta la fecha… [pero] no alcanza una alta capacidad en ciberseguridad”.
Aunque aún no ha cruzado el umbral que desencadenaría una interrupción de la implementación, la competencia del modelo para identificar vulnerabilidades y escribir scripts de explotación ha mejorado.
Para mitigar esto, OpenAI ha implementado un entorno de pruebas estricto de forma predeterminada. El acceso a la red está deshabilitado a menos que se conceda explícitamente, y los permisos de escritura de archivos están bloqueados en el espacio de trabajo activo, lo que evita que el agente acceda a los directorios del sistema.
La destrucción de datos es un riesgo único para los agentes de codificación autónomos. En teoría, el acceso a la terminal podría permitir que un modelo ejecute un comando como `rm-rf/` y borre la máquina de un usuario. Para contrarrestar esto, OpenAI empleó una novedosa técnica de entrenamiento que involucra un”modelo de usuario”durante la fase de aprendizaje por refuerzo.
Al simular a un usuario que realizó ediciones que entraban en conflicto con los objetivos de la IA, este método recompensó al modelo específicamente por preservar el trabajo del usuario en lugar de sobrescribirlo, enseñando efectivamente a la IA a respetar las contribuciones humanas y evitar comandos destructivos.
Los ataques de inyección rápida, donde las instrucciones maliciosas se ocultan dentro de los comentarios del código o la documentación externa, también recibieron atención específica. Se generaron nuevos conjuntos de datos sintéticos para entrenar el modelo para que reconozca e ignore estos ataques dentro de un contexto de codificación.
A pesar de estas salvaguardias técnicas, la empresa sostiene que la supervisión humana no es negociable. El marco de preparación dicta que, si bien el agente puede ejecutar tareas de forma autónoma, el resultado final debe ser revisado por un ingeniero humano, lo que refuerza la dinámica del”compañero de equipo virtual”en lugar de un reemplazo completo.