Openai está intensificando sus capacidades de IA de voz, lanzando oficialmente su API en tiempo real para desarrolladores de todo el mundo el jueves. La pieza central del lanzamiento es GPT-RealTime, un nuevo modelo de voz a voz insignia que promete conversaciones más naturales y expresivas a un costo 20% más bajo.
Para capacitar a los desarrolladores que construyen agentes de voz listos para la producción, OpenAi también ha actualizado la API con nuevas características cruciales. Estos incluyen soporte para entradas de imágenes, integración de llamadas telefónicas a través de SIP y conexiones de datos simplificadas utilizando el Protocolo de contexto del modelo (MCP).
El movimiento proporciona a los desarrolladores herramientas más confiables y capaces, posicionando OpenAI contra un campo creciente de rivales como Mistral, Anthralp y XIAOMI en la carrera para definir la interacción futura de la voz. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>
bajo el capó: un modelo de voz más inteligente y expresivo
El nuevo modelo GPT-Realtime Marks a un salto significativo en el rendimiento. Openai afirma que es su el modelo de voz más avanzado y listo para la producción hasta ahora , entregando mejoras importantes en las siguientes instrucciones complejas, llamando a las herramientas con precisión y produciendo un discurso que suena más natural y expresivo.
en el contenido de contenido interno, el modelo de inteligencia, las herramientas, y producen un discurso más alto que suena más natural y expreso.
en el contenido de contenido interno. Obtuvo un 82.8% en la evaluación de audio de Big Bench para el razonamiento, un salto importante del 65.6% del modelo anterior. Esto le permite interpretar mejor las señales no verbales como la risa, cambiar los idiomas a mitad de la oración y manejar con precisión las secuencias alfanuméricas.
El seguimiento de la instrucción, una función crítica para los agentes confiables, también se ha mejorado. El modelo mejoró su puntaje en el punto de referencia de audio multichallenge de 20.6% a 30.5%, lo que permite que se adhiera de manera más confiable a las indicaciones específicas de los desarrolladores, como leer un descargo de responsabilidad legal en una llamada de soporte. Aquí, la precisión de las funciones de GPT-Realtime en el complejo de referencia de ComplexFuncbench aumentó a 66.5% de 49.7%. Esto asegura que el modelo llame a las funciones correctas con los argumentos correctos de manera más consistente.
Más allá de la inteligencia cruda, el modelo fue entrenado para producir un discurso de mayor calidad con más entonación, emoción y ritmo de los humanos. Puede seguir instrucciones de grano fino, como”hablar rápida y profesionalmente”o”hablar empatíamente con acento francés”, para crear una experiencia más personalizada.
Para mostrar estas ganancias, la compañía lanzó dos nuevas voces, cedar y marin, que están disponibles exclusivamente en la API y aparece en las mejoras más significativas para el discurso de la industria de la industria de la llave. La actualización de OpenAI es un intento directo de crear experiencias de usuario más atractivas y menos robóticas.
desarrolladores de sobrealimentación: actualizaciones de API para agentes listos para la producción
Más allá del nuevo modelo, la API en tiempo real ahora es la corriente de producción. Se ha mudado de la versión beta pública que comenzó en octubre de 2024, trayendo consigo un conjunto de nuevas capacidades poderosas diseñadas para aplicaciones del mundo real. Openai señala que los comentarios de miles de desarrolladores durante la versión beta ayudaron a dar forma a estas mejoras listas para la producción.
La arquitectura de la API, que procesa el audio directamente a través de un solo modelo, está diseñado para reducir la latencia y preservar el matiz en el habla, una ventaja clara sobre las tuberías tradicionales que encadenan múltiples modelos juntos para las funciones del discurso a texto y el texto a la voz. servidores. Este estándar abierto simplifica cómo los modelos AI se conectan a datos externos. Los desarrolladores ahora pueden pasar la URL de un servidor remoto de MCP en la configuración de la sesión , permitiendo que la API se maneje automáticamente las llamadas de herramientas sin necesidad de integraciones manuales.
Pase para construir agentes comerciales capaces mientras priorizan los datos y la privacidad del usuario.
La API ahora también admite entradas de imágenes, lo que permite conversaciones multimodales donde un agente puede analizar y discutir lo que un usuario está viendo. El sistema trata imágenes como una instantánea agregada al chat, no una transmisión de video en vivo, asegurando que los desarrolladores retengan el control sobre lo que ve el modelo. Esto desbloquea casos de uso como pedirle a un agente que describiera una foto o lea el texto de una captura de pantalla.
Además, el nuevo soporte de protocolo de iniciación de sesión (SIP) permite la integración directa con redes de teléfonos públicos, sistemas PBX y otros puntos finales de telefonía empresarial, lo que hace que sea más fácil desplegar agentes de voz en los centros de llamadas y otros entornos comerciales.
Los primeros adoptantes ya viendo. Zillow, que obtuvo acceso temprano, está utilizando la API para alimentar su búsqueda en el hogar de próxima generación. El jefe de IA de la compañía, Josh Weisberg, informó que”exhibe un razonamiento más fuerte y un discurso más natural… permitiéndole manejar solicitudes complejas y de varios pasos, como listados de estrechamiento por las necesidades de estilo de vida…”, destacando su potencial para interacciones de clientes complejas.