Openai está intensificando sus capacidades de IA de voz, lanzando oficialmente su API en tiempo real para desarrolladores de todo el mundo el jueves. La pieza central del lanzamiento es GPT-RealTime, un nuevo modelo de voz a voz insignia que promete conversaciones más naturales y expresivas a un costo 20% más bajo.

Para capacitar a los desarrolladores que construyen agentes de voz listos para la producción, OpenAi también ha actualizado la API con nuevas características cruciales. Estos incluyen soporte para entradas de imágenes, integración de llamadas telefónicas a través de SIP y conexiones de datos simplificadas utilizando el Protocolo de contexto del modelo (MCP).

El movimiento proporciona a los desarrolladores herramientas más confiables y capaces, posicionando OpenAI contra un campo creciente de rivales como Mistral, Anthralp y XIAOMI en la carrera para definir la interacción futura de la voz. src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

bajo el capó: un modelo de voz más inteligente y expresivo

El nuevo modelo GPT-Realtime Marks a un salto significativo en el rendimiento. Openai afirma que es su el modelo de voz más avanzado y listo para la producción hasta ahora , entregando mejoras importantes en las siguientes instrucciones complejas, llamando a las herramientas con precisión y produciendo un discurso que suena más natural y expresivo.

en el contenido de contenido interno, el modelo de inteligencia, las herramientas, y producen un discurso más alto que suena más natural y expreso.

en el contenido de contenido interno. Obtuvo un 82.8% en la evaluación de audio de Big Bench para el razonamiento, un salto importante del 65.6% del modelo anterior. Esto le permite interpretar mejor las señales no verbales como la risa, cambiar los idiomas a mitad de la oración y manejar con precisión las secuencias alfanuméricas.

El seguimiento de la instrucción, una función crítica para los agentes confiables, también se ha mejorado. El modelo mejoró su puntaje en el punto de referencia de audio multichallenge de 20.6% a 30.5%, lo que permite que se adhiera de manera más confiable a las indicaciones específicas de los desarrolladores, como leer un descargo de responsabilidad legal en una llamada de soporte. Aquí, la precisión de las funciones de GPT-Realtime en el complejo de referencia de ComplexFuncbench aumentó a 66.5% de 49.7%. Esto asegura que el modelo llame a las funciones correctas con los argumentos correctos de manera más consistente.

Más allá de la inteligencia cruda, el modelo fue entrenado para producir un discurso de mayor calidad con más entonación, emoción y ritmo de los humanos. Puede seguir instrucciones de grano fino, como”hablar rápida y profesionalmente”o”hablar empatíamente con acento francés”, para crear una experiencia más personalizada.

Para mostrar estas ganancias, la compañía lanzó dos nuevas voces, cedar y marin, que están disponibles exclusivamente en la API y aparece en las mejoras más significativas para el discurso de la industria de la industria de la llave. La actualización de OpenAI es un intento directo de crear experiencias de usuario más atractivas y menos robóticas.

desarrolladores de sobrealimentación: actualizaciones de API para agentes listos para la producción

Más allá del nuevo modelo, la API en tiempo real ahora es la corriente de producción. Se ha mudado de la versión beta pública que comenzó en octubre de 2024, trayendo consigo un conjunto de nuevas capacidades poderosas diseñadas para aplicaciones del mundo real. Openai señala que los comentarios de miles de desarrolladores durante la versión beta ayudaron a dar forma a estas mejoras listas para la producción.

La arquitectura de la API, que procesa el audio directamente a través de un solo modelo, está diseñado para reducir la latencia y preservar el matiz en el habla, una ventaja clara sobre las tuberías tradicionales que encadenan múltiples modelos juntos para las funciones del discurso a texto y el texto a la voz. servidores. Este estándar abierto simplifica cómo los modelos AI se conectan a datos externos. Los desarrolladores ahora pueden pasar la URL de un servidor remoto de MCP en la configuración de la sesión , permitiendo que la API se maneje automáticamente las llamadas de herramientas sin necesidad de integraciones manuales.

Pase para construir agentes comerciales capaces mientras priorizan los datos y la privacidad del usuario.

La API ahora también admite entradas de imágenes, lo que permite conversaciones multimodales donde un agente puede analizar y discutir lo que un usuario está viendo. El sistema trata imágenes como una instantánea agregada al chat, no una transmisión de video en vivo, asegurando que los desarrolladores retengan el control sobre lo que ve el modelo. Esto desbloquea casos de uso como pedirle a un agente que describiera una foto o lea el texto de una captura de pantalla.

Además, el nuevo soporte de protocolo de iniciación de sesión (SIP) permite la integración directa con redes de teléfonos públicos, sistemas PBX y otros puntos finales de telefonía empresarial, lo que hace que sea más fácil desplegar agentes de voz en los centros de llamadas y otros entornos comerciales.

Los primeros adoptantes ya viendo. Zillow, que obtuvo acceso temprano, está utilizando la API para alimentar su búsqueda en el hogar de próxima generación. El jefe de IA de la compañía, Josh Weisberg, informó que”exhibe un razonamiento más fuerte y un discurso más natural… permitiéndole manejar solicitudes complejas y de varios pasos, como listados de estrechamiento por las necesidades de estilo de vida…”, destacando su potencial para interacciones de clientes complejas.

un desafío abierto en un mercado abierto en un mercado de la voz de la voz que se lanzó a la arena de la voz de la voz. Los rivales avanzan agresivamente de sus propias tecnologías de voz. En mayo, Anthrope hizo una entrada significativa al implementar un modo de voz para su Claude AI. Más recientemente, Meta intensificó la guerra de talentos al adquirir Voice Startup Playai por $ 45 millones en julio para reforzar su asistente de IA e gafas inteligentes.

La comunidad de código abierto también está aumentando un desafío formidable. La startup francesa Mistral lanzó sus modelos voxtrales en julio, con el objetivo de socavar los sistemas propietarios con una licencia Permisiva Apache 2.0 y una promesa de rendimiento de estado de arte a menos de la mitad del precio de las API competitivas.

justo este mes, Xiaomi siguió una playbook similar, lanzando su modelo MIDASHENGLM-7B. Utiliza un innovador método de capacitación basado en un subtítulo para una comprensión más holística del habla, la música y los sonidos ambientales, también bajo una licencia comercial.

Incluso los gigantes tecnológicos establecidos no están detenidos. En abril, Amazon lanzó su modelo expresivo Nova Sonic en tiempo real, que se está integrando en su asistente de Alexa+. Sus dispositivos lideran, Panos Panay, prometió anteriormente que”cuando usas Alexa+, lo sentirás”, lo que indica un impulso para interacciones más resonantes emocionalmente.

La innovación también se extiende a startups especializadas. La AI de estabilidad está abordando el procesamiento en el dispositivo, mientras que otros como Sesame AI están empujando los límites del realismo para crear asistentes de”sonido inquietantemente humano”que adoptan las imperfecciones naturales como las pausas y los ttutters.

haciendo que su tecnología de voz más avanzada sea más accesible, poderosa y asequible, abierta, está haciendo un juego estratégico para mantener su liderazgo. La compañía está apostando a que una experiencia de desarrollador superior será el factor decisivo en esta guerra de plataforma cada vez mayor.

Categories: IT Info