OpenAI a élargi son offre aux développeurs en déployant la version complète de son modèle o1 via son API. Ce modèle de raisonnement avancé, qui excelle dans les tâches complexes en plusieurs étapes, introduit de nouvelles fonctionnalités qui promettent de remodeler la façon dont les développeurs créent des applications basées sur l’IA.
La mise à jour fait partie de la série d’annonces « 12 jours d’OpenAI », au cours de laquelle la société publie de nouvelles fonctionnalités et mises à jour pour ses principaux produits.
En plus du modèle o1, OpenAI a a également annoncé des améliorations de son API en temps réel pour les interactions vocales et une nouvelle méthode de réglage précis des préférences, offrant aux développeurs une flexibilité sans précédent.
Le modèle o1-2024-12-17 remplace la version o1-preview lancée plus tôt cette année. Selon OpenAI, le modèle mis à jour offre « plus complet ». et des réponses précises, en particulier pour les questions relatives à la programmation et aux affaires, et est moins susceptible de refuser des demandes à tort.
Ces améliorations, associées à une réduction de 60 % de l’utilisation des jetons de raisonnement, rendent le modèle o1 plus rapide, plus efficace et plus polyvalent.
[contenu intégré]
Avancement du raisonnement via API avec le modèle o1
Le modèle o1 d’OpenAI est conçu pour s’attaquer aux tâches nécessitant une cohérence logique et une profondeur analytique, surpassant les itérations précédentes sur des benchmarks tels que SWE-Bench vérifié et AIME.
OpenAI rapporte que la précision des tâches de programmation est passée de 52,3 % à 76,6 %, tandis que les performances sur les problèmes mathématiques ont bondi de 42 % à près de 80 %.
Source : OpenAI
Une fonctionnalité remarquable est la prise en charge de sorties structurées, permettant aux développeurs de générer des réponses dans des formats prédéfinis tels que JSON.
Cela garantit une intégration transparente avec des systèmes externes tels que les API et les bases de données, ce qui rend le modèle idéal pour les applications de support client, de logistique et d’analyse de données.
Le modèle introduit également des capacités de raisonnement visuel, permettant l’analyse d’images pour des tâches telles que le débogage ou la recherche scientifique. Par exemple, les développeurs peuvent désormais saisir des données visuelles, telles que des documents numérisés ou des plans, et recevoir des réponses contextuelles.
De plus, un nouveau paramètre « effort de raisonnement » permet aux développeurs de contrôler le temps que le modèle passe sur chaque tâche, en équilibrant précision et efficacité.
OpenAI a expliqué dans son blog : « Nous roulons étendre l’accès à des niveaux d’utilisation supplémentaires et augmenter les limites de débit.”
Améliorer les interactions vocales avec l’API en temps réel
OpenAI a également apporté une contribution significative mises à jour de son API Realtime, qui alimente les interactions vocales en temps réel. L’ajout de WebRTC, Web Real-Time Communication — un protocole de communication à faible latence — permet aux développeurs de créer des applications vocales transparentes pour les tuteurs virtuels, les assistants et les outils de traduction. Il permet des connexions peer-to-peer (P2P) sans nécessiter de plugins ou de logiciels supplémentaires.
OpenAI a souligné les avantages du WebRTC, déclarant : « Dans les scénarios dans lesquels vous souhaitez vous connecter à un modèle en temps réel à partir d’un client non sécurisé sur le réseau (comme un navigateur Web), nous vous recommandons d’utiliser la méthode de connexion WebRTC. WebRTC est mieux équipé pour gérer les états de connexion variables et fournit un certain nombre d’API pratiques pour capturer les entrées audio de l’utilisateur et lire les flux audio distants à partir du modèle.”
La mise en œuvre de WebRTC utilise ce que l’on appelle des jetons éphémères, Clés API temporaires spécialement conçues pour authentifier en toute sécurité les applications côté client lors de la connexion à l’API OpenAI Realtime via WebRTC. Leur objectif est de garantir un mécanisme d’authentification sûr et de courte durée qui évite d’exposer des clés API standard sensibles directement dans les environnements clients tels que les navigateurs Web.
Image : OpenAI
Les mises à niveau de l’API Realtime simplifient le processus de développement, réduisant le code requis pour les applications vocales tout en améliorant la qualité audio et la précision des réponses. Les développeurs peuvent désormais créer des applications qui commencent à formuler des réponses pendant que les utilisateurs parlent encore, améliorant ainsi la réactivité.
Les ajustements de prix rendent les applications vocales plus accessibles. Le coût des jetons audio GPT-4o a été réduit de 60 %, tandis que les jetons d’entrée mis en cache sont désormais 87,5 % moins chers. OpenAI a également introduit GPT-4o mini, une option rentable pour les développeurs à la recherche d’alternatives abordables, au prix de 10 $ par million de jetons d’entrée.
Affiner le comportement de l’IA avec un réglage précis des préférences
Le réglage fin des préférences est une nouvelle méthode de personnalisation qui permet aux développeurs d’affiner le comportement du modèle en fonction de comparaisons appariées de réponses. Contrairement au réglage fin traditionnel, qui repose sur des paires entrée-sortie exactes, le réglage fin des préférences apprend au modèle à faire la distinction entre les réponses préférées et moins souhaitables.
OpenAI décrit cette méthode comme particulièrement efficace pour les tâches subjectives, telles que comme adapter le ton et le style dans l’écriture créative ou garantir le respect d’exigences de formatage spécifiques. Selon OpenAI, les premiers utilisateurs, comme une société d’analyse financière, ont signalé que le réglage fin des préférences améliorait de 5 % la précision des réponses pour les requêtes complexes et hors distribution.
“Nous avons commencé à tester le réglage fin des préférences avec des partenaires de confiance qui ont obtenu jusqu’à présent des résultats prometteurs. Par exemple, Rogo AI (ouvre dans une nouvelle fenêtre) crée un assistant d’IA pour les analystes financiers qui décompose les requêtes complexes en sous-requêtes.
À l’aide de leur référence conçue par des experts, Rogo-Golden, ils ont découvert que même si le réglage fin supervisé était confronté à des défis liés à l’expansion des requêtes hors distribution, tels que des métriques manquantes telles que l’ARR pour des requêtes telles que « à quelle vitesse est-il entreprise X en pleine croissance » : le réglage fin des préférences a résolu ces problèmes, améliorant les performances de 75 % de précision dans le modèle de base à plus de 80 %. »
Élargissement des options du SDK pour Développeurs
Pour prendre en charge un plus large éventail d’environnements de programmation, OpenAI a également introduit des SDK officiels pour Allez et Java, à côtébibliothèques existantes pour Python, Node.js et.NET. Ces SDK simplifient l’intégration, permettant aux développeurs de déployer des modèles d’IA dans des systèmes backend ou d’entreprise évolutifs. applications.
Le SDK Go est conçu pour les applications côté serveur légères et efficaces, tandis que le SDK Java s’adresse aux solutions d’entreprise, offrant un typage puissant et une prise en charge robuste pour les projets à grande échelle. La documentation d’OpenAI fournit des conseils détaillés pour tirer parti de ces nouveaux outils.
Annonces précédentes au cours des « 12 jours d’OpenAI »
Le 16 décembre, OpenAI a lancé son ChatGPT. fonctionnalité de recherche Web en direct disponible pour tous les utilisateurs, permettant à chacun de récupérer des informations à jour directement sur le Web.
Le 14 décembre a introduit de nouvelles options de personnalisation pour ChatGPT, permettant aux utilisateurs de rationaliser les tâches. et gérer efficacement les projets. Projects permet aux utilisateurs de regrouper des discussions, des fichiers et des instructions personnalisées dans des dossiers dédiés, créant ainsi un espace de travail organisé pour gérer les tâches et les flux de travail.
En guise d’amélioration considérable de son mode vocal avancé pour ChatGPT, Le 12 décembre, OpenAI a ajouté des fonctionnalités de vision, permettant aux utilisateurs de partager des vidéos et des écrans en direct pour une analyse et une assistance en temps réel.
Le 11 décembre, OpenAI a entièrement lancé Canvas, un espace de travail d’édition collaboratif qui offre des outils avancés pour les deux. texte et l’affinement du code Initialement lancé en version bêta en octobre 2024, Canvas remplace l’interface standard de ChatGPT par une conception en écran partagé, permettant aux utilisateurs de travailler sur du texte ou du code tout en s’engageant dans des échanges conversationnels avec l’IA.
L’ajout. L’exécution de Python est une fonctionnalité remarquable de Canvas, permettant aux développeurs d’écrire, de tester et de déboguer des scripts directement au sein de la plateforme. OpenAI a démontré son utilité lors d’un événement en direct en utilisant Python pour générer et affiner des visualisations de données. OpenAI a décrit cette fonctionnalité comme “réduire les frictions entre la génération d’idées et leur mise en œuvre”.
Le 9 décembre, OpenAI a officiellement lancé Sora, son outil d’IA avancé pour générer des vidéos à partir d’invites de texte, signalant une nouvelle ère pour l’IA créative. Intégré aux comptes ChatGPT payants, Sora permet aux utilisateurs d’animer des images fixes, d’étendre des vidéos existantes et de fusionner des scènes dans des récits cohérents.
Lancé le 7 décembre était Renforcement. Fine-Tuning en tant que nouveau cadre conçu pour permettre la personnalisation des modèles d’IA pour des applications spécifiques à un secteur. Il s’agit de la dernière approche d’OpenAI pour améliorer les modèles d’IA en les entraînant avec des ensembles de données et des systèmes de notation fournis par les développeurs, contrairement à l’apprentissage supervisé traditionnel, qui se concentre sur. reproduisant les résultats souhaités
Le 5 décembre, OpenAI a dévoilé ChatGPT Pro, un nouveau niveau d’abonnement premium au prix de 200 $ par mois, destiné aux professionnels et aux entreprises à la recherche de fonctionnalités d’IA avancées pour workflows à forte demande.