a déclaré en toute confiance: «C’est le meilleur modèle au monde en codage… le meilleur modèle au monde à l’écriture, le meilleur modèle du monde en soins de santé, et une longue liste de choses au-delà.»
Dominance dans le codage et l’ingénierie logicielle
GPT-5 démontre une levée significative dans sa capacité à gérer complexe, réel-world Programming Tasks. Dans le test vérifié par le banc SWE validé par l’homme, le modèle atteint un taux de réussite de 74,9% sur sa première tentative, une amélioration massive par rapport aux 30,8% de GPT-4O et 69,1% à partir d’Openai O3.
Ce score bat de justesse Anthropic Opus 4.1 d’Anthropic, positionnement GPT-5 pour le nouveau État de Google. Tâches d’ingénierie logicielle. La carte du système note qu’il s’agit d’un domaine de mise au point clé, le modèle formé pour gérer le codage complexe avec une incitation minimale.
Exceller à des défis académiques de niveau expert
Le modèle excelle également dans des domaines académiques hautement spécialisés qui nécessitent des connaissances approfondies et expertes. Sur la référence en diamant GPQA, un test de questions de science au niveau du doctorat, GPT-5 Pro a marqué 88,4%, dépassant légèrement Grok 4 Heavy de Xai.
Son raisonnement mathématique est particulièrement fort. Sur la référence en mathématiques de compétition AIME 2025, GPT-5 Pro a obtenu un score parfait à 100% lors de l’utilisation d’un interprète Python et 96,7% sans outils. Cela démontre une capacité robuste pour la résolution de problèmes abstraite et logique qui a été un défi de longue date pour l’IA.
un bond en avant dans la fiabilité et la précision factuelle
Peut-être que l’amélioration la plus significative pour les utilisateurs de tous les jours est la fiabilité accrue de GPT-5. OpenAI s’est fortement concentré sur la réduction des hallucinations, la tendance des modèles à inventer des faits. Les résultats montrent une réduction spectaculaire dans les erreurs factuelles à tous les niveaux.
Selon la carte système «GPT-5-Thinking» fait plus de cinq fois moins d’erreurs factuelles que OpenAI O3 sur les références open-source comme Longfact et FactScore. Lors de l’analyse du trafic de production de ChatGPT réel, le nouveau modèle a 78% de réponses en moins contenant au moins une erreur factuelle majeure par rapport à son prédécesseur.
Cette amélioration est particulièrement frappante dans les domaines sensibles comme les soins de santé. Lors du test des hallucinations dures HealthBench, le GPT-5 a un taux d’hallucination de seulement 1,6%, une réduction de 8x par rapport à 12,9% de l’O3. Cette précision accrue est au cœur de la poussée d’Openai pour des assistants AI plus fiables et utiles.
Resisté et résistance à la tromperie améliorées
Au-delà de la précision, GPT-5 introduit un système de sécurité plus nuancé appelé «complétions sûres». Au lieu de refuser carrément de répondre aux requêtes ambiguës ou à double usage, le modèle est formé pour fournir une réponse utile mais sûre et de haut niveau. Cela améliore l’utilité sans compromettre les politiques de sécurité de base.
Le modèle est également beaucoup plus robuste contre la tromperie et le jailbreaks. Dans une équipe rouge approfondie s’est concentrée sur la planification violente des attaques, les experts humains ont évalué le GPT-5 en tant que modèle «plus sûr» 65,1% du temps dans les comparaisons aveugles avec Openai O3. La carte système attribue cela à la nouvelle formation en sécurité et aux réponses plus détaillées et prudentes.
De plus, le modèle est moins sujet à la tromperie. Lorsqu’il a été testé sur sa capacité à reconnaître et à s’abstenir de répondre aux questions avec de faux prémisses (par exemple, en posant des questions sur une image inexistante), le taux de tromperie du GPT-5 était aussi faible que 9%, une amélioration spectaculaire par rapport au taux de 87% de l’Openai O3 dans le même test. Ses capacités de raisonnement de haut niveau disponibles pour les utilisateurs gratuits de Chatgpt pour la première fois. Alors que les utilisateurs rémunérés obtiendront des limites d’utilisation plus élevées, cette décision démocratise l’accès à la pointe de l’IA.
Nick Turley, vice-président d’Openai de Chatgpt, a déclaré que la décision reflète les principes fondamentaux de l’entreprise.”Ce n’est qu’une des façons dont je suis ravi de vivre la mission, en veillant à ce que ce truc profite réellement aux gens.”
Aux côtés du déploiement du GPT-5, l’interface Chatgpt obtient plusieurs mises à niveau. Les utilisateurs peuvent désormais choisir parmi quatre personnalités prédéfinies-cyniques, robots, écouteurs et nerd-pour adapter le ton du chatbot. Les nouvelles intégrations permettront également à Chatgpt de se connecter au calendrier GMail et Google d’un utilisateur.
Une stratégie segmentée pour les développeurs et l’entreprise
Pour les développeurs et les entreprises, le GPT-5 est publié via une API avec une structure à plusieurs niveaux conçue pour répondre à différents besoins. La famille comprend le modèle principal «GPT-5», un `GPT-5-MINI» pour les tâches sensibles aux coûts, et un `GPT-5-NANO» optimisé pour les applications de faible latence.
Cette approche segmentée est une stratégie claire pour rivaliser sur tous les fronts. Il contrecarre des modèles de source ouverte plus petits, avec des versions «mini» et «nano» pour les développeurs qui priorisent la vitesse et le coût. L’API ajoute également de nouveaux contrôles pour la verbosité et l’effort de raisonnement, permettant un réglage fin des performances et de la latence.
La tarification du modèle de base `GPT-5` est fixée à 1,25 $ par million de jetons d’entrée et 10 $ par million pour la production.
Cette stratégie de produit est soutenue par des mouvements financiers gras. Le lancement intervient alors qu’Openai envisageait une évaluation de 500 milliards de dollars et aurait offert des bonus massifs pour conserver des talents, tirant parti de ses ressources pour garantir son avenir. Comme le dit Altman, «GPT-5 est la première fois que cela ressemble vraiment à parler à un expert au niveau du doctorat». Nick Turley a ajouté plus simplement:”Les vibrations de ce modèle sont vraiment bonnes.”