Les nouveaux modèles d’Openai-O3 et O4-MinI-ont un changement net dans ce que le chatgpt peut faire sans être informé. Pour la première fois, le système ne répond pas seulement aux invites-il peut décider, planifier et agir. Ces modèles peuvent choisir les outils internes à utiliser-que ce soit la navigation, la lecture de fichiers, l’exécution de code ou la génération d’images-et lancer ces actions indépendamment. OpenAI décrit cela comme la première étape vers le «comportement des premiers agents».

à la mi-avril, les deux modèles sont actifs pour ChatGpt Plus, Team et Enterprise Users. Ils remplacent des modèles antérieurs comme O1 et O3-MinI et sont disponibles pour les utilisateurs avec accès aux outils. La société déclare que ces modèles peuvent désormais décider indépendamment quels outils utiliser et quand, sans l’incitation des utilisateurs.

Cette autonomie permet à Chatgpt de fonctionner davantage comme un assistant qui comprend l’intention et prend l’initiative. Par exemple, un utilisateur peut télécharger un fichier complexe et simplement demander «un résumé des problèmes clés». Le modèle déterminera alors s’il faut utiliser l’outil de fichier, l’interprète de code ou le navigateur et exécuter ces étapes elle-même.

[Contenu intégré]

Raisonnement, mémoire et intelligence visuelle

Le modèle O3 a été initialement prévisual en décembre 2024 et a ensuite priorisé le GPT-5 après que la stratégie d’Openai ait décalé début avril. OpenAI a décalé la stratégie début avril pour séparer les lignes de modèle de raisonnement et d’achèvement après avoir initialement prévu de fusionner les capacités O3 en GPT-5.

En plus du texte et du code, les nouveaux modèles peuvent traiter et raisonner sur les images. Ils prennent en charge les fonctions telles que le zoom, la rotation et l’interprétation des éléments visuels-une capacité construite au-dessus de la mise à jour GPT-4O qui a ajouté la détérioration et l’édition d’images à Chatgpt en mars 2025.

La version d’O3 et d’O4-MinI a été chronométrée aux côtés d’un reflux des capacités de mémoire de Chatgpt. Le 11 avril, OpenAI a activé une fonction de «rappel» qui permet au modèle de référencer des faits, des instructions ou des préférences à partir de conversations antérieures à travers la voix, le texte et l’image. Ce système prend en charge à la fois des souvenirs enregistrés et des références implicites à l’historique du chat.

Altman appelé la mise à niveau «une fonctionnalité étonnamment formidable… Il pointe quelque chose qui nous passionne: les systèmes d’IA qui apprennent à vous connaître sur votre vie, et deviennent extrêmement utiles et personnalisés.»

pour des modèles de raisons comme O3, la mémoire améliore la capacité de planifier des tasks sur plusieurs étapes, des sessions, des formats ou des formations. Un utilisateur pourrait, par exemple, demander à Chatgpt de suivre les thèmes de recherche sur plusieurs PDF, et le modèle serait en mesure de rappeler des résumés antérieurs et de rassembler automatiquement les informations pertinentes.

Des modèles dans divers domaines, mettant en évidence leurs forces les uns par rapport aux autres et les modèles précédents.

Dans les évaluations de la capacité de raisonnement, les nouveaux modèles présentent des gains importants. Pour exiger des évaluations des mathématiques de compétition comme l’AIME 2024 et 2025 (testées sans assistance à l’outil), O4-Mini a atteint la précision la plus élevée, menant étroitement O3. Les deux modèles ont substantiellement surpassé les versions O1 et O3-MinI précédentes.

Ce modèle a été maintenu pour les questions de science au niveau du doctorat mesurées par GPQA Diamond, où O4-MinI a encore légèrement légèrement décoré O3, à la fois avec une amélioration marquée sur leurs prédécesseurs. Lors de la lutte contre les larges questions de niveau expert («dernier examen de l’humanité»), O3 tirant parti des outils de python et de navigation a fourni de solides résultats, juste après une configuration de recherche profonde spécialisée. Le modèle O4-MinI, également en utilisant des outils, a bien fonctionné, montrant un avantage distinct sur sa version sans outils et ses anciens modèles.

CODING ET ENGINEERING SOFFICAL CAPABILITÉS

La maîtrise des modèles en codage et en développement de logiciels a été testée sur plusieurs benchmarks. Sur les tâches de codage de concours de codes, O4-Mini (lorsqu’elles sont associées à un outil de terminal) ont sécurisé la note ELO la plus élevée, suivie de près par O3 en utilisant le même outil. Ces scores représentent un progrès majeur par rapport à O3-MinI et O1.

Dans l’édition de code polyglot évalué par Aider, la variante O3-High a démontré la meilleure précision globale. Alors que O4-MinI-High a mieux fonctionné que O1-High et O3-MinI-High, il a traîné O3-High sur ce test particulier. Pour les tâches d’ingénierie logicielle vérifiées sur SWE-Bench, l’O3 a montré une légère avance sur O4-MinI, bien que les deux soient clairement supérieurs à O1 et O3-MinI. Une exception notable s’est produite dans la simulation de tâches indépendantes SWE-LANCER, où l’ancien modèle O1-High a généré des gains simulés plus élevés que les modèles plus récents O3 High, O4-MinI-High et O3-MinI-High.

Compétences agentiques: le suivi de l’instruction, l’utilisation des outils et l’appel de fonction

Les fonctionnalités agentiques améliorées des nouveaux modèles ont été reflétées dans des tests spécifiques. Sur l’échelle multi-challenge pour l’instruction multi-tour après, O3 a obtenu le score le plus élevé, devant O1, O4-Mini et O3-MinI. Dans les tests de navigation Web agentiques (BrowsComp), l’O3 utilisant Python et la navigation affichait une précision élevée, dépassant considérablement la capacité d’O1.

Le modèle O4-Mini avec des outils a également démontré sa compétence dans la navigation, bien que son score soit inférieur à l’O3 dans cette configuration. Fonction appelant les performances, évaluées via Tau-Bench, variées par le domaine des tâches. La configuration O3-High a excellé dans le domaine de la vente au détail, tandis que O1-High détenait un léger avantage dans le domaine de la compagnie aérienne par rapport aux O3-High et O4-MinI-High. Néanmoins, O4-MinI-High a montré une capacité d’appel de fonction généralement forte dans les deux domaines par rapport à O3-MinI-High.

Compréhension multimodale

Les performances des tâches nécessitant une compréhension visuelle ont également été mesurées. Dans plusieurs repères multimodaux, notamment MMMU (résolution de problèmes visuels au niveau collégial), MathVista (raisonnement visuel mathématique) et la saisonning (interprétation des figures scientifiques), le modèle O3 a constamment réalisé les scores de précision les plus élevés selon les données d’Openai. Le modèle O4-Mini a également fonctionné presque, suivant de près O3. O3 et O4-MINI ont marqué une amélioration substantielle par rapport au modèle O1 dans ces capacités de raisonnement visuel.

Efficacité et coût-performance

Au-delà de la capacité brute, les données de référence d’OpenAI indiquent des progrès significatifs dans l’efficacité du modèle. Le modèle O4-Mini a systématiquement fourni des performances plus élevées que O3-MINI sur des références clés comme AIME 2025 et GPQA Pass @ 1 sur différents paramètres opérationnels (faible, moyen, élevé), tout en ayant un coût d’inférence estimé inférieur. Un avantage similaire a été observé pour l’O3 par rapport à O1; L’O3 a obtenu des résultats considérablement meilleurs sur les mêmes repères mais à un coût estimé réduit pour des paramètres comparables. Cela suggère que les progrès de la série O comprennent non seulement une intelligence plus grande mais aussi une efficacité de calcul améliorée.

Dans l’ensemble, les données de performance d’OpenAI indiquent que O3 définit fréquemment la marque à haute eau, en particulier dans les opérations agentiques complexes et les tâches multimodales. Simultanément, O4-Mini s’avère être un modèle très capable et notamment efficace, correspondant souvent ou même dépassant l’O3 dans un raisonnement spécifique et le codage des références, tout en offrant des économies de coûts significatives par rapport à O3-MinI. Les deux nouveaux modèles représentent une étape claire et substantielle des offres OpenAI précédentes à travers la plupart des capacités testées.

Test de sécurité compressée Sparks Inquipment

Le déploiement rapide de la série O de la série O a soulevé les préoccupations en interne et en externe. La société a récemment mis à jour son cadre de préparation pour permettre de relaxer certains protocoles de sécurité si un rival libère un modèle à haut risque sans garanties similaires. La société a écrit:”Si un autre développeur d’IA frontalière publie un système à haut risque sans garanties comparables, nous pouvons ajuster nos exigences.”

Ceci est venu au milieu des rapports que les tests internes pour O3 avaient été compressés de plusieurs mois à moins d’une semaine.

Johannes Heidecke, Openai Head of Safety Systems, défendu le processus, énonçant:”Nous avons un bon équilibre de la façon dont nous allons à comparer le processus. Il a ajouté que l’automatisation avait permis des évaluations de sécurité plus rapides.

Un domaine de préoccupation est le choix d’Openai de tester les points de contrôle intermédiaires des modèles plutôt que des versions finales. Un ancien employé a averti:”C’est une mauvaise pratique de publier un modèle différent de celui que vous avez évalué.”

Le cadre mis à jour a également introduit de nouvelles catégories suivis et de recherche pour surveiller les risques tels que la réplication autonome, la manipulation de la surveillance et la planification à long horizon. DeepMind a proposé un cadre mondial de sécurité AGI début avril, tandis qu’Anthropic a publié une boîte à outils d’interprétation pour rendre la prise de décision de Claude plus transparente. Cependant, les deux sociétés ont été examinées-Anthropic pour supprimer les engagements des politiques publiques, et DeepMind pour offrir des détails limités d’application.

Openai, en revanche, facture des capacités qui rapprochent ses modèles d’être des acteurs indépendants au sein du système. Les modèles O3 et O4-Mini ne sont pas seulement plus intelligents-ils agissent sur leur propre jugement.

La concurrence pousse les capacités d’agent à l’avant

La stratégie d’Openai se déroule contre un paysage concurrentiel où les rivaux courent également pour définir l’avenir de l’AI de raisonnement. Microsoft a déjà intégré le modèle O3-MinI-High dans son niveau de copilote gratuit. Plus récemment, la société a lancé une fonctionnalité de Copilot Studio qui permet aux agents de l’IA d’interagir directement avec les applications de bureau et les pages Web. Ces agents peuvent simuler des actions des utilisateurs comme cliquer sur les boutons ou saisir des données-en particulier utile lorsque les API ne sont pas disponibles.

En attendant, la ligne de modèle GPT-4.1 d’OpenAI, lancée le 14 avril, a été mise à disposition exclusivement via API. Cette ligne est optimisée pour le codage, les invites à long contexte et le suivi des instructions, mais manque d’utilisation d’outils autonomes-en mettant en évidence la stratégie de segmentation d’OpenAI entre les modèles GPT et la série O Les modèles ne produisent pas seulement des réponses-ils planifient, la raison et choisissent comment agir. Qu’il s’agisse d’analyser un article scientifique, de déboguer du code ou d’ajuster une image, ces modèles peuvent désormais décider des étapes à prendre sans attendre les instructions.

Openai appelle cela le début du comportement de type agent. Mais les systèmes d’agent soulèvent également de nouvelles préoccupations: dans quelle mesure leur raisonnement est-il transparent? Que se passe-t-il lorsqu’ils font un mauvais appel ou abusez un outil? Ces questions ne sont plus théoriques. Au fur et à mesure que O3 et O4-MinI se déroulent à des millions d’utilisateurs, les performances du monde réel-et la responsabilité-sont sur le point d’être testées.

Categories: IT Info