OpenAI a dévoilé ses derniers modèles d’intelligence artificielle, o3 et o3-Mini, conçus pour exceller dans les tâches nécessitant un raisonnement logique complexe.

Annoncé lors de la conclusion de l’événement « 12 Days of OpenAI » d’OpenAI. , les modèles s’appuient sur le succès de la famille de modèles o1 précédente et intègrent des améliorations telles que le temps de raisonnement réglable, Sam Altman, a décrit o3 comme une avancée dans le développement d’une IA capable de gérer « des tâches de plus en plus complexes qui nécessitent une réflexion approfondie ». raisonnement.”

OpenAI a déclaré qu’il n’avait pas nommé les nouveaux modèles”o2″”par respect”pour la marque de télécommunications britannique. Les nouveaux modèles sont disponibles en avant-première par les chercheurs en sécurité, avec un accès public plus large prévu au début de l’année prochaine.

Jour 12 : Premières évaluations pour OpenAI o3 (oui, nous avons sauté un certain nombre)https://t.co/iWXg9IGuZM

— OpenAI (@OpenAI) 20 décembre 2024

Capacités et applications de raisonnement améliorées

La famille o3 introduit plusieurs fonctionnalités visant à améliorer la capacité de l’IA à résoudre des problèmes logiques. Plus particulièrement, les modèles permettent aux utilisateurs d’ajuster le temps alloué au raisonnement, en trouvant un équilibre entre vitesse et précision.

Selon OpenAI, cette capacité permet à o3 de mieux performer dans un large éventail de tâches, notamment les mathématiques avancées, la programmation et l’analyse scientifique.

Contrairement à d’autres modèles axés sur le raisonnement, o3 comme o1 utilise une méthodologie de « chaîne de pensée privée ». Elle décompose les problèmes en étapes logiques plus petites avant de fournir une solution. OpenAI affirme que cette approche permet de minimiser les erreurs et garantit que le modèle fournit des résultats plus fiables pour les requêtes complexes.

Altman a indiqué que les nouveaux modèles sont conçus pour répondre à des tâches qui reposaient traditionnellement sur les capacités humaines de résolution de problèmes.

Performance par rapport aux critères clés

Les évaluations internes d’OpenAI positionnent o3 comme une amélioration majeure par rapport à son prédécesseur. Sur ARC-AGI, un benchmark conçu pour tester la généralisation de l’IA, o3 a obtenu un score. de 87,5 %, contre 32 % pour le meilleur score d’o1. D’autres benchmarks mettent en évidence les points forts d’o3 :

EpochAI Frontier Math : o3 a résolu 25,2 % des problèmes, surpassant tous les autres systèmes d’IA, qui atteignent leur maximum. à 2%. FrontierMath évalue les capacités des systèmes d’IA en matière de raisonnement mathématique avancé. Le benchmark se compose de centaines de problèmes mathématiques originaux et exceptionnellement difficiles qui couvrent les principales branches des mathématiques modernes, notamment la théorie computationnelle des nombres, l’analyse réelle, la géométrie algébrique et la théorie des catégories.
AIME 2024 : score o3 96,7%, avec une seule question manquée. Le benchmark AIME (Artificial Intelligence Math Evaluation) 2024 est conçu pour évaluer les capacités de résolution de problèmes mathématiques des modèles d’IA sur la base du Examens AIME 2024. Cette évaluation se concentre sur des défis mathématiques complexes, similaires à ceux rencontrés lors de l’American Invitational Mathematics Examination, connu pour tester les compétences d’étudiants en mathématiques très talentueux du secondaire aux États-Unis.
GPQA Diamond: A atteint un taux de précision de 87,7 %, excellant dans la réponse à des requêtes logiques de haut niveau. GPQA Diamond évalue les capacités des systèmes d’IA en matière de raisonnement scientifique avancé dans les domaines de la biologie, de la physique et de la chimie au niveau universitaire. Ce benchmark se compose de 198 questions à choix multiples exceptionnellement difficiles, conçues pour être difficiles même pour des non-experts hautement qualifiés.

François Chollet, co-créateur d’ARC-AGI, a décrit ces progrès comme solides mais ne reflètent qu’un seul aspect. d’intelligence générale.

Aujourd’hui, OpenAI a annoncé o3, son modèle de raisonnement de nouvelle génération. Nous avons travaillé avec OpenAI pour le tester sur ARC-AGI, et nous pensons que cela représente une avancée significative dans l’adaptation de l’IA à de nouvelles tâches.

Il obtient un score de 75,7 % à l’évaluation semi-privée en faible niveau.-mode calcul (pour 20$ par tâche… pic.twitter.com/ESQ9CNVCEA

— François Chollet (@fchollet) 20 décembre 2024

Chollet a également partagé quelques exemples de tâches que o3 n’a pas pu résoudre avec des paramètres de calcul élevés, qui sont disponibles sur GitHub pour une analyse plus approfondie.

Ce sera également extrêmement Il est important d’analyser les forces et les limites du nouveau système. Voici quelques exemples de tâches que o3 ne pouvait pas résoudre avec des paramètres de calcul élevés (même s’il générait des millions de jetons de recherche CoT et consommait des milliers de dollars de calcul… pic.twitter.com/IULyjAlxwV

— François Chollet (@fchollet) 20 décembre 2024

Préoccupations et limites en matière de sécurité

Malgré ses réalisations, o3 soulève des inquiétudes quant au déploiement éthique et à la sécurité. Il a été constaté que les modèles de raisonnement comme o1 présentent une tendance plus élevée aux comportements trompeurs par rapport à l’IA traditionnelle. OpenAI reconnaît que ces risques pourraient persister avec o3 et collabore activement avec des organisations externes pour effectuer des tests de sécurité.

Altman a suggéré dans une récente interview que la sortie de systèmes d’IA avancés devrait être guidée par des cadres fédéraux robustes pour garantir sécurité et responsabilité.

Connexe : Résultats de l’IA Safety Index 2024 : OpenAI, Google, Meta, xAI Fall Short ; Anthropic en tête

La montée de l’IA raisonnée et les rivalités industrielles

L’annonce d’OpenAI intervient à une époque de concurrence accrue entre les développeurs d’IA. Hier encore, Google a présenté son modèle Gemini 2.0 Flash Thinking, décrit par le PDG Sundar Pichai comme « notre système le plus réfléchi à ce jour ». Pendant ce temps, Alibaba et DeepSeek ont ​​également publié des modèles axés sur le raisonnement, marquant un changement vers ce domaine spécialisé du développement de l’IA.

La popularité de l’IA raisonnée reflète un consensus croissant selon lequel la mise à l’échelle des modèles ne suffit plus à obtenir des gains de performances substantiels. Cependant, ces systèmes nécessitent des ressources de calcul importantes, ce qui soulève des questions sur leur pérennité. évolutivité.

Connexe : Le nouveau benchmark FACTS de Google mesure la véracité des modèles d’IA

Un contexte plus large : o3 et l’intelligence artificielle générale

Les progrès d’OpenAI avec o3 ont relancé les débats sur l’intelligence artificielle générale (AGI). La société définit l’AGI comme des systèmes qui « surpassent les humains dans le travail le plus rentable ». La réalisation de l’AGI aurait des implications financières pour le partenariat d’OpenAI avec Microsoft, modifiant potentiellement leur accord sur l’accès aux technologies de l’entreprise.

Bien qu’Altman n’ait pas déclaré o3 comme AGI, ses solides performances sur les benchmarks suggèrent qu’OpenAI progresse progressivement. plus proche de cet objectif ambitieux. Cependant, une validation externe et des tests supplémentaires seront essentiels pour confirmer les capacités du modèle.

Connexe : OpenAI repense la clause AGI pour sécuriser le partenariat Microsoft

Annonces précédentes au cours des « 12 jours d’OpenAI »

Le 19 décembre, OpenAI a dévoilé une mise à jour de son application de bureau ChatGPT pour macOS. Les utilisateurs de Mac peuvent désormais profiter d’une expérience plus interactive et approche mains libres de l’utilisation de ChatGPT, brouillant encore davantage les frontières entre l’interaction homme-machine.

Le 18 décembre, OpenAI a lancé un numéro gratuit et un accès WhatsApp pour ChatGPT, rendant le chatbot IA plus accessible.

Le 17 décembre a introduit l’accès à l’API pour le modèle o1 de la version complète d’OpenAI, des améliorations à l’API en temps réel pour les interactions vocales et une nouvelle méthode de réglage précis des préférences.

Le 16 décembre, OpenAI a rendu sa fonctionnalité de recherche sur le Web en direct ChatGPT disponible à tous les utilisateurs, permettant à chacun de récupérer des informations à jour directement sur le Web.

Le 14 décembre a introduit de nouvelles options de personnalisation pour ChatGPT. , permettant aux utilisateurs de rationaliser les tâches et de gérer les projets efficacement. Les projets permettent aux utilisateurs de regrouper des discussions, des fichiers et des instructions personnalisées dans des dossiers dédiés, créant ainsi un espace de travail organisé pour gérer les tâches et les flux de travail.

En guise d’amélioration considérable de son mode vocal avancé pour ChatGPT, OpenAI a ajouté le 12 décembre capacités de vision, permettant aux utilisateurs de partager des vidéos et des écrans en direct pour une analyse et une assistance en temps réel.

Le 11 décembre, OpenAI a entièrement lancé Canvas, un espace de travail d’édition collaboratif qui offre des outils avancés pour le texte et le code. raffinement. Initialement lancé en version bêta en octobre 2024, Canvas remplace l’interface standard de ChatGPT par une conception en écran partagé, permettant aux utilisateurs de travailler sur du texte ou du code tout en s’engageant dans des échanges conversationnels avec l’IA.

L’ajout de l’exécution Python est une fonctionnalité remarquable de Canvas, permettant aux développeurs d’écrire, de tester et de déboguer des scripts directement au sein de la plateforme. OpenAI a démontré son utilité lors d’un événement en direct en utilisant Python pour générer et affiner des visualisations de données. OpenAI a décrit cette fonctionnalité comme “réduire les frictions entre la génération d’idées et leur mise en œuvre”.

Le 9 décembre, OpenAI a officiellement lancé Sora, son outil d’IA avancé pour générer des vidéos à partir d’invites de texte, signalant une nouvelle ère pour l’IA créative. Intégré aux comptes ChatGPT payants, Sora permet aux utilisateurs d’animer des images fixes, d’étendre des vidéos existantes et de fusionner des scènes dans des récits cohérents.

Lancé le 7 décembre était Renforcement. Fine-Tuning en tant que nouveau cadre conçu pour permettre la personnalisation des modèles d’IA pour des applications spécifiques à un secteur. Il s’agit de la dernière approche d’OpenAI pour améliorer les modèles d’IA en les entraînant avec des ensembles de données et des systèmes de notation fournis par les développeurs, contrairement à l’apprentissage supervisé traditionnel, qui se concentre sur. reproduisant les résultats souhaités

Le 5 décembre, OpenAI a dévoilé ChatGPT Pro, un nouveau niveau d’abonnement premium au prix de 200 $ par mois, destiné aux professionnels et aux entreprises à la recherche de fonctionnalités d’IA avancées pour flux de travail à forte demande.

Categories: IT Info