Des modèles dans divers domaines, mettant en évidence leurs forces les uns par rapport aux autres et les modèles précédents.
Dans les évaluations de la capacité de raisonnement, les nouveaux modèles présentent des gains importants. Pour exiger des évaluations des mathématiques de compétition comme l’AIME 2024 et 2025 (testées sans assistance à l’outil), O4-Mini a atteint la précision la plus élevée, menant étroitement O3. Les deux modèles ont substantiellement surpassé les versions O1 et O3-MinI précédentes.
Ce modèle a été maintenu pour les questions de science au niveau du doctorat mesurées par GPQA Diamond, où O4-MinI a encore légèrement légèrement décoré O3, à la fois avec une amélioration marquée sur leurs prédécesseurs. Lors de la lutte contre les larges questions de niveau expert («dernier examen de l’humanité»), O3 tirant parti des outils de python et de navigation a fourni de solides résultats, juste après une configuration de recherche profonde spécialisée. Le modèle O4-MinI, également en utilisant des outils, a bien fonctionné, montrant un avantage distinct sur sa version sans outils et ses anciens modèles.
CODING ET ENGINEERING SOFFICAL CAPABILITÉS
La maîtrise des modèles en codage et en développement de logiciels a été testée sur plusieurs benchmarks. Sur les tâches de codage de concours de codes, O4-Mini (lorsqu’elles sont associées à un outil de terminal) ont sécurisé la note ELO la plus élevée, suivie de près par O3 en utilisant le même outil. Ces scores représentent un progrès majeur par rapport à O3-MinI et O1.
Dans l’édition de code polyglot évalué par Aider, la variante O3-High a démontré la meilleure précision globale. Alors que O4-MinI-High a mieux fonctionné que O1-High et O3-MinI-High, il a traîné O3-High sur ce test particulier. Pour les tâches d’ingénierie logicielle vérifiées sur SWE-Bench, l’O3 a montré une légère avance sur O4-MinI, bien que les deux soient clairement supérieurs à O1 et O3-MinI. Une exception notable s’est produite dans la simulation de tâches indépendantes SWE-LANCER, où l’ancien modèle O1-High a généré des gains simulés plus élevés que les modèles plus récents O3 High, O4-MinI-High et O3-MinI-High.
Compétences agentiques: le suivi de l’instruction, l’utilisation des outils et l’appel de fonction
Les fonctionnalités agentiques améliorées des nouveaux modèles ont été reflétées dans des tests spécifiques. Sur l’échelle multi-challenge pour l’instruction multi-tour après, O3 a obtenu le score le plus élevé, devant O1, O4-Mini et O3-MinI. Dans les tests de navigation Web agentiques (BrowsComp), l’O3 utilisant Python et la navigation affichait une précision élevée, dépassant considérablement la capacité d’O1.
Le modèle O4-Mini avec des outils a également démontré sa compétence dans la navigation, bien que son score soit inférieur à l’O3 dans cette configuration. Fonction appelant les performances, évaluées via Tau-Bench, variées par le domaine des tâches. La configuration O3-High a excellé dans le domaine de la vente au détail, tandis que O1-High détenait un léger avantage dans le domaine de la compagnie aérienne par rapport aux O3-High et O4-MinI-High. Néanmoins, O4-MinI-High a montré une capacité d’appel de fonction généralement forte dans les deux domaines par rapport à O3-MinI-High.
Compréhension multimodale
Les performances des tâches nécessitant une compréhension visuelle ont également été mesurées. Dans plusieurs repères multimodaux, notamment MMMU (résolution de problèmes visuels au niveau collégial), MathVista (raisonnement visuel mathématique) et la saisonning (interprétation des figures scientifiques), le modèle O3 a constamment réalisé les scores de précision les plus élevés selon les données d’Openai. Le modèle O4-Mini a également fonctionné presque, suivant de près O3. O3 et O4-MINI ont marqué une amélioration substantielle par rapport au modèle O1 dans ces capacités de raisonnement visuel.
Efficacité et coût-performance
Au-delà de la capacité brute, les données de référence d’OpenAI indiquent des progrès significatifs dans l’efficacité du modèle. Le modèle O4-Mini a systématiquement fourni des performances plus élevées que O3-MINI sur des références clés comme AIME 2025 et GPQA Pass @ 1 sur différents paramètres opérationnels (faible, moyen, élevé), tout en ayant un coût d’inférence estimé inférieur. Un avantage similaire a été observé pour l’O3 par rapport à O1; L’O3 a obtenu des résultats considérablement meilleurs sur les mêmes repères mais à un coût estimé réduit pour des paramètres comparables. Cela suggère que les progrès de la série O comprennent non seulement une intelligence plus grande mais aussi une efficacité de calcul améliorée.
Dans l’ensemble, les données de performance d’OpenAI indiquent que O3 définit fréquemment la marque à haute eau, en particulier dans les opérations agentiques complexes et les tâches multimodales. Simultanément, O4-Mini s’avère être un modèle très capable et notamment efficace, correspondant souvent ou même dépassant l’O3 dans un raisonnement spécifique et le codage des références, tout en offrant des économies de coûts significatives par rapport à O3-MinI. Les deux nouveaux modèles représentent une étape claire et substantielle des offres OpenAI précédentes à travers la plupart des capacités testées.
Test de sécurité compressée Sparks Inquipment
Le déploiement rapide de la série O de la série O a soulevé les préoccupations en interne et en externe. La société a récemment mis à jour son cadre de préparation pour permettre de relaxer certains protocoles de sécurité si un rival libère un modèle à haut risque sans garanties similaires. La société a écrit:”Si un autre développeur d’IA frontalière publie un système à haut risque sans garanties comparables, nous pouvons ajuster nos exigences.”
Ceci est venu au milieu des rapports que les tests internes pour O3 avaient été compressés de plusieurs mois à moins d’une semaine.
Johannes Heidecke, Openai Head of Safety Systems, défendu le processus, énonçant:”Nous avons un bon équilibre de la façon dont nous allons à comparer le processus. Il a ajouté que l’automatisation avait permis des évaluations de sécurité plus rapides.
Un domaine de préoccupation est le choix d’Openai de tester les points de contrôle intermédiaires des modèles plutôt que des versions finales. Un ancien employé a averti:”C’est une mauvaise pratique de publier un modèle différent de celui que vous avez évalué.”
Le cadre mis à jour a également introduit de nouvelles catégories suivis et de recherche pour surveiller les risques tels que la réplication autonome, la manipulation de la surveillance et la planification à long horizon. DeepMind a proposé un cadre mondial de sécurité AGI début avril, tandis qu’Anthropic a publié une boîte à outils d’interprétation pour rendre la prise de décision de Claude plus transparente. Cependant, les deux sociétés ont été examinées-Anthropic pour supprimer les engagements des politiques publiques, et DeepMind pour offrir des détails limités d’application.
Openai, en revanche, facture des capacités qui rapprochent ses modèles d’être des acteurs indépendants au sein du système. Les modèles O3 et O4-Mini ne sont pas seulement plus intelligents-ils agissent sur leur propre jugement.
La concurrence pousse les capacités d’agent à l’avant
La stratégie d’Openai se déroule contre un paysage concurrentiel où les rivaux courent également pour définir l’avenir de l’AI de raisonnement. Microsoft a déjà intégré le modèle O3-MinI-High dans son niveau de copilote gratuit. Plus récemment, la société a lancé une fonctionnalité de Copilot Studio qui permet aux agents de l’IA d’interagir directement avec les applications de bureau et les pages Web. Ces agents peuvent simuler des actions des utilisateurs comme cliquer sur les boutons ou saisir des données-en particulier utile lorsque les API ne sont pas disponibles.
En attendant, la ligne de modèle GPT-4.1 d’OpenAI, lancée le 14 avril, a été mise à disposition exclusivement via API. Cette ligne est optimisée pour le codage, les invites à long contexte et le suivi des instructions, mais manque d’utilisation d’outils autonomes-en mettant en évidence la stratégie de segmentation d’OpenAI entre les modèles GPT et la série O Les modèles ne produisent pas seulement des réponses-ils planifient, la raison et choisissent comment agir. Qu’il s’agisse d’analyser un article scientifique, de déboguer du code ou d’ajuster une image, ces modèles peuvent désormais décider des étapes à prendre sans attendre les instructions.
Openai appelle cela le début du comportement de type agent. Mais les systèmes d’agent soulèvent également de nouvelles préoccupations: dans quelle mesure leur raisonnement est-il transparent? Que se passe-t-il lorsqu’ils font un mauvais appel ou abusez un outil? Ces questions ne sont plus théoriques. Au fur et à mesure que O3 et O4-MinI se déroulent à des millions d’utilisateurs, les performances du monde réel-et la responsabilité-sont sur le point d’être testées.