Los nuevos modelos de OpenAI, O3 y O4-Mini, marquen un cambio agudo en lo que ChatGPT puede hacer sin que se lo digan. Por primera vez, el sistema no solo responde a las indicaciones, puede decidir, planificar y actuar. Estos modelos pueden elegir qué herramientas internas usar, ya sea navegando, lectura de archivos, ejecución de código o generación de imágenes, e iniciar esas acciones de forma independiente. OpenAi describe esto como el primer paso hacia el”comportamiento de la agente temprano”.
A mediados de abril, ambos modelos están activos para los usuarios ChatGPT Plus, Team y Enterprise. Están reemplazando modelos anteriores como O1 y O3-Mini y están disponibles para usuarios con acceso a herramientas. La compañía afirma que estos modelos ahora pueden decidir independientemente qué herramientas usar y cuándo, sin solicitar el usuario.
Esta autonomía permite a ChatGPT operar más como un asistente que comprende la intención y toma la iniciativa. Por ejemplo, un usuario puede cargar un archivo complejo y simplemente solicitar”un resumen de los problemas clave”. El modelo luego determinará si usa la herramienta de archivo, el intérprete de código o el navegador, y ejecutará esos pasos en sí.
> [Contenido integrado]
razonamiento, memoria e inteligencia visual
El modelo O3 se observó inicialmente en diciembre de 2024 y luego priorizó sobre GPT-5 después de la estrategia de OpenAI cambió a principios de abril. Openai cambió la estrategia a principios de abril para separar las líneas del modelo de razonamiento y finalización después de planear inicialmente fusionar las capacidades de O3 en GPT-5.
Además del texto y el código, los nuevos modelos pueden procesar y razonar sobre las imágenes. Admiten funciones como zoom, rotación e interpretación de elementos visuales, una capacidad construida sobre la actualización GPT-4O que agregó entrada e edición de imágenes a ChatGPT en marzo de 2025.
El lanzamiento de O3 y O4-Mini fue programado junto a una Overhaul of ChatGPT de las capacidades de la memoria de la memoria. El 11 de abril, OpenAI activó una característica de”recuperación”que permite que el modelo haga referencia a hechos, instrucciones o preferencias de conversaciones anteriores a través de la voz, el texto y la imagen. Este sistema admite tanto recuerdos guardados como referencias implícitas a la historia del chat.
Altman llamó a la actualización”Una característica sorprendentemente grande… señala algo que estamos entusiasmados: los sistemas de IA que lo conocen durante su vida, y se vuelven extremadamente útiles y personalizados. Un usuario podría, por ejemplo, pedirle a ChatGPT que rastree los temas de investigación en varios PDF, y el modelo podría recordar resúmenes anteriores y unir los conocimientos relevantes automáticamente.
o3 y O4-Mini rendimiento y modelos de comparación
resultados de la plena opción a través de las capacidades de las capacidades de las capacidades de los nuevos o3 y los nuevos modelos de comparación 4>
. dominios, destacando sus fortalezas entre sí y modelos anteriores.
En las evaluaciones de la capacidad de razonamiento, los nuevos modelos muestran ganancias significativas. Para exigentes evaluaciones de matemáticas de competencia como AIME 2024 y 2025 (probado sin asistencia para herramientas), O4-Mini logró la mayor precisión, con estrechamente el O3. Ambos modelos superaron sustancialmente las versiones anteriores de O1 y O3-Mini.
Este patrón se mantuvo en cuestiones de ciencia a nivel de doctorado medidas por GPQA Diamond, donde O4-Mini nuevamente salió ligeramente O3, y ambas demuestran una mejora marcada sobre sus predecesores. Al abordar las amplias preguntas a nivel de experto (“último examen de la humanidad”), el O3 aprovechando las herramientas de Python y la navegación entregaron resultados sólidos, solo solo por una configuración de investigación profunda especializada. El modelo O4-Mini, que también usa herramientas, se desempeñó bien, muestra una clara ventaja sobre su versión sin herramienta y modelos más antiguos.
Capacidades de codificación e ingeniería de software
La competencia de los modelos en la codificación y el desarrollo de software se probó en varios compartimos. En las tareas de codificación de competencia de CodeForces, O4-Mini (cuando se combina con una herramienta terminal) aseguró la calificación ELO más alta, seguida de cerca por O3 utilizando la misma herramienta. Estos puntajes representan un avance importante en comparación con O3-Mini y O1.
En la edición de código Polyglot evaluado por el aider, la variante de O3 demostró la mejor precisión general. Mientras que O4-Mini-High funcionó mejor que O1-High y O3-Mini-High, siguió a O3-High en esta prueba en particular. Para las tareas verificadas de ingeniería de software en el banco SWE, O3 mostró una ligera ventaja sobre O4-Mini, aunque ambas eran claramente superiores a O1 y O3-Mini. Se produjo una excepción notable en la simulación de tareas independientes de Swe-Lancer, donde el modelo más antiguo de O1 generó ganancias simuladas más altas que los modelos más nuevos de O3 más nuevos, O4-Mini altos y altos de O3-Mini.
>
Habilidades de agente: la instrucción siguiente, uso de la herramienta y función llamando
Las funcionalidades de agente mejoradas de los nuevos modelos se reflejaron en pruebas específicas. En la escala multichallenge para la instrucción de múltiples vueltas siguientes, O3 alcanzó el puntaje superior, por delante de O1, O4-Mini y O3-Mini. En las pruebas de navegación web agente (Browsecomp), el O3 que utiliza Python y la navegación mostró una alta precisión, superando significativamente la capacidad de O1.
>
El modelo O4-Mini con herramientas también demostró competencia en la navegación, aunque su puntaje fue menor que el de O3 en esta configuración. El rendimiento de las llamadas de funciones, evaluado a través de Tau-Bench, variado por el dominio de la tarea. La configuración de O3 altas se destacó en el dominio minorista, mientras que O1-High tenía una ligera ventaja en el dominio de la aerolínea en comparación con O3-High y O4-Mini-High. Sin embargo, O4-Mini-High mostró una capacidad de llamadas de función generalmente sólida en ambos dominios en relación con O3-Mini-High.
también se midió la comprensión multimodal
en tareas que requieren comprensión visual. En varios puntos de referencia multimodales, incluidos MMMU (resolución de problemas visuales a nivel universitario), MathVista (razonamiento de matemáticas visuales) y la realización de Charxiv (interpretación de figuras científicas), el modelo O3 logró constantemente los puntajes de mayor precisión de acuerdo con los datos de OpenAI. El modelo O4-Mini funcionó casi tan bien, siguiendo de cerca O3. Tanto O3 como O4-Mini marcaron una mejora sustancial sobre el modelo O1 en estas capacidades de razonamiento visual.
>
eficiencia y rendimiento de costo
Más allá de la capacidad bruta, los datos de referencia de OpenAI indican avances significativos en la eficiencia del modelo. El modelo O4-Mini ofreció constantemente un mayor rendimiento que O3-Mini en puntos de referencia clave como AIME 2025 y GPQA Pass@1 en diferentes entornos operativos (bajo, medio, alto), todo mientras tiene un costo de inferencia estimado más bajo. Se observó una ventaja similar para O3 en comparación con O1; O3 logró resultados considerablemente mejores en los mismos puntos de referencia, pero a un costo estimado reducido para entornos comparables. Esto sugiere que los avances de la serie O incluyen no solo una mayor inteligencia sino también una eficiencia computacional mejorada.
>
En general, los datos de rendimiento de OpenAI indican que O3 con frecuencia establece la marca de alta agua, particularmente en operaciones de agente complejas y tareas multimodales. Simultáneamente, O4-Mini demuestra ser un modelo muy capaz y notablemente eficiente, a menudo coincidir o incluso exceder el O3 en puntos de referencia específicos de razonamiento y codificación, al tiempo que ofrece ahorros de costos significativos en comparación con O3-Mini. Ambos modelos nuevos representan un paso claro y sustancial de las ofertas anteriores de Operai en la mayoría de las capacidades probadas.
Las chispas de prueba de seguridad comprimidas se preocupan
El rápido despliegue de la serie O de OpenAi ha generado preocupaciones internas y externas. La compañía actualizó recientemente su marco de preparación para permitir la relajación de ciertos protocolos de seguridad si un rival libera un modelo de alto riesgo sin salvaguardas similares. La compañía escribió:”Si otro desarrollador de IA fronterista libera un sistema de alto riesgo sin salvaguardas comparables, podemos ajustar nuestros requisitos”.
Esto vino en medio de informes de que las pruebas internas para O3 se habían comprimido de varios meses a menos de una semana.
Johannes Heidecke, la cabeza de seguridad de la cabeza abierta, defendida el proceso, según el proceso:”tenemos un buen equilibrio de la buena orientación de la buena orientación de la bienvenida de la buena orientación de lo que nos vamos a mover. Agregó que la automatización había permitido evaluaciones de seguridad más rápidas.
Un área de preocupación es la elección de OpenAI para probar los puntos de control intermedios de los modelos en lugar de las versiones finales. Un ex empleado advirtió:”Es una mala práctica lanzar un modelo que sea diferente del que evaluó”.
El marco actualizado también introdujo nuevas categorías de investigación e investigación para monitorear riesgos como la replicación autónoma, la manipulación de la supervisión y la planificación de oraciones largas.
Google profundo y antrópico han adoptado enfoques más cautrosos. DeepMind propuso un marco global de seguridad AGI a principios de abril, mientras que Anthrope lanzó un kit de herramientas de interpretabilidad para que la toma de decisiones de Claude sea más transparente. Sin embargo, ambas compañías se han enfrentado al escrutinio: el antrópico para eliminar los compromisos de políticas públicas, y DeepMind por ofrecer detalles de aplicación limitados.
OpenAi, por el contrario, está cobrando por delante con las capacidades que acerquen a sus modelos a ser actores independientes dentro del sistema. Los modelos O3 y O4-Mini no son solo más inteligentes: están actuando a su propio juicio.
La competencia empuja las capacidades de los agentes hacia adelante
La estrategia de OpenAi se desarrolla contra un paisaje competitivo donde los rivales también están compitiendo para definir el futuro de razonamiento AI. Microsoft ya ha integrado el modelo O3-Mini-High en su nivel de copilot gratuito. Más recientemente, la compañía lanzó una función de Copilot Studio que permite a los agentes de IA interactuar directamente con aplicaciones de escritorio y páginas web. Estos agentes pueden simular acciones del usuario como hacer clic en botones o ingresar datos, particularmente útiles cuando las API no están disponibles.
Mientras tanto, la línea del modelo GPT-4.1 de OpenAI, lanzada el 14 de abril, se puso a disposición exclusivamente a través de API. Esa línea está optimizada para la codificación, las indicaciones de contexto a largo plazo y el seguimiento de las instrucciones, pero carece de uso de herramientas autónomas: más destacando la estrategia de segmentación de OpenAI entre los modelos GPT y la serie O.
de asistente a agente
con el lanzamiento de O3 y O4-Mini, el chatgpt ha entrado en un nuevo nuevo. Los modelos no solo producen respuestas: el plan, la razón y eligen cómo actuar. Ya sea analizando un documento científico, el código de depuración o ajustar una imagen, estos modelos ahora pueden decidir qué pasos tomar sin esperar instrucciones.
OpenAi llama a esto el comienzo del comportamiento similar al agente. Pero los sistemas de agentes también plantean nuevas preocupaciones: ¿cuán transparente es su razonamiento? ¿Qué sucede cuando hacen una mala llamada o usan mal una herramienta? Estas preguntas ya no son teóricas. A medida que se extienden O3 y O4-Mini a millones de usuarios, el rendimiento del mundo real y la responsabilidad están a punto de ser probados.