Openai intensifie ses capacités de l’IA vocale, lançant officiellement son API en temps réel pour les développeurs du monde entier jeudi. La pièce maîtresse de la version est GPT-Realtime, un nouveau modèle phare de parole de discours qui promet des conversations expressives plus naturelles à un coût inférieur de 20%.
pour permettre aux développeurs de construire des agents vocaux prêts pour la production, OpenAI a également mis à niveau l’API avec de nouvelles caractéristiques cruciales. Ceux-ci incluent la prise en charge des entrées d’image, l’intégration des appels téléphoniques via SIP et les connexions de données rationalisées à l’aide du protocole de contexte modèle (MCP).
Le mouvement fournit aux développeurs des outils plus fiables et capables, positionnant OpenAI dans un champ croissant d’interaction comme Mistral, anthropic et xiaomi dans la course pour définir l’interaction vocale. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>
sous le capot: un modèle vocal plus intelligent et expressif
Le nouveau modèle GPT-REALtime marque un LEP significatif dans les performances. OpenAI affirme qu’il s’agit de son le modèle vocal le plus avancé, la production de la production, encore , offrant des améliorations majeures dans les instructions complexes suivantes, les outils d’appel avec précision et la production de discours qui semblent plus naturels et expressifs. intelligence. Il a marqué 82,8% sur l’évaluation audio Big Banc pour le raisonnement, un bond majeur par rapport aux 65,6% du modèle précédent. Cela lui permet de mieux interpréter des signaux non verbaux comme les rires, des langues de commutation à mi-parcours et de gérer avec précision les séquences alphanumériques.
Le suivi des instructions, une fonction critique pour les agents fiables, a également été amélioré. Le modèle a amélioré son score sur la référence audio Multichallenge de 20,6% à 30,5%, ce qui lui permet d’adhérer de manière plus fiable à des invites de développeur spécifiques, telles que la lecture d’un avertissement juridique verbatim sur un appel d’assistance.
[Contenu intégré]
pour être utile dans le monde réel, un agent vocal doit efficacement des outils externes. Ici, la précision de GPT-Realtime sur la référence ComplexFunchBench est passée à 66,5%, contre 49,7%. Cela garantit que le modèle appelle les bonnes fonctions avec les arguments corrects de manière plus cohérente.
Au-delà de l’intelligence brute, le modèle a été formé pour produire une parole de meilleure qualité avec une intonation, une émotion et un rythme plus humains. Il peut suivre des instructions à grains fins, tels que «parler rapidement et professionnellement» ou «parler empathié en un accent français», pour créer une expérience plus personnalisée.
pour présenter ces gains, l’entreprise a publié deux nouvelles voix, Cedar et Marin, qui sont disponibles exclusivement dans l’API et mettent en place les améliorations les plus significatives pour résoudre le discours de la touche. La mise à jour d’OpenAI est une tentative directe de créer des expériences d’utilisateurs plus engageantes et moins robotiques.
Développeurs de suralimentation: mises à niveau de l’API pour les agents prêts pour la production
Au-delà du nouveau modèle, l’API en temps réel lui-même est désormais de qualité de production. Il a quitté la version bêta publique qui a commencé en octobre 2024, apportant avec elle une suite de nouvelles capacités puissantes conçues pour les applications du monde réel. OpenAI note que les commentaires de milliers de développeurs pendant la version bêta ont contribué à façonner ces améliorations pratiquées par la production.
L’architecture de l’API, qui traite l’audio directement via un modèle unique, est conçue pour réduire ensemble la latence et préserver la nuance dans la parole, un avantage distinct sur les pipelines traditionnels qui chaîne multiples modèles ensemble pour les fonctions de contexte de la parole et de la texte. Cette norme ouverte simplifie la façon dont les modèles AI se connectent aux données externes. Les développeurs peuvent désormais passer l’URL d’un serveur MCP distant dans la configuration de la session Étape pour créer des agents commerciaux capables tout en hiérarchisant les données et la confidentialité des utilisateurs.
L’API prend désormais également en charge les entrées d’image, permettant des conversations multimodales où un agent peut analyser et discuter de ce qu’un utilisateur constate. Le système traite des images comme un instantané ajouté au chat, pas un flux vidéo en direct, garantissant aux développeurs le contrôle de ce que le modèle voit. Cela déverrouille des cas d’utilisation comme demander à un agent de décrire une photo ou de lire du texte à partir d’une capture d’écran.
En outre, la prise en charge du protocole d’initiation de ses session (SIP) permet une intégration directe avec les réseaux téléphoniques publics, les systèmes PBX et d’autres environnements de téléphonie d’entreprise.
Zillow, qui a gagné un accès anticipé, utilise l’API pour alimenter sa recherche de maison de nouvelle génération. Le chef de l’IA de la société, Josh Weisberg, a rapporté que «il présente un raisonnement plus fort et une parole plus naturelle… lui permettant de gérer des demandes complexes et en plusieurs étapes telles que les listes de rétrécissement par les besoins de style de vie…,« Mendant son potentiel pour les interactions complexes des clients. Les rivaux progressent agressivement leurs propres technologies vocales. En mai, Anthropic a fait une entrée significative en déployant un mode vocal pour son Claude Ai. Plus récemment, Meta a intensifié la guerre des talents en acquérant la startup vocale Playai pour 45 millions de dollars en juillet pour renforcer son assistant AI et ses lunettes intelligentes.
La communauté open source monte également un défi formidable. La startup française Mistral a publié ses modèles Voxtral en juillet, visant à saper les systèmes propriétaires avec une licence Apache 2.0 permissive et une promesse de performances de pointe à moins de la moitié du prix des API concurrentes.
Juste ce mois, Xiaomi a suivi un jeu de jeu similaire, lançant son modèle MidashEnglm-7B. Il utilise une méthode de formation basée sur des légendes innovante pour une compréhension plus holistique de la parole, de la musique et des sons ambiants, également sous une licence commerciale.
Les géants de la technologie même établis ne sont pas immobiles. En avril, Amazon a lancé son modèle expressif Nova Sonic en temps réel, qui est intégré à son assistant Alexa +. Ses appareils mènent, Panos Panay, a précédemment promis que «lorsque vous utilisez Alexa +, vous allez le ressentir», signalant une poussée pour des interactions plus résonantes émotionnellement.
L’innovation s’étend également aux startups spécialisées. La stabilité AI s’attaque à un traitement sur les appareils, tandis que d’autres comme Sesame AI repoussent les limites du réalisme pour créer des assistants «étrangement à consonance humaine» qui embrassent les imperfections naturelles comme des pauses et des bégaides.
en rendant sa technologie vocale la plus avancée plus accessible, puissante et abordable, OpenAI fait un jeu stratégique pour maintenir son leadership. L’entreprise parie qu’une expérience de développeur supérieure sera le facteur décisif dans cette guerre de plate-forme croissante.