OpenAI ha ampliado su oferta para desarrolladores al implementar la versión completa de su modelo o1 a través de su API. Este modelo de razonamiento avanzado, que destaca en tareas complejas de varios pasos, introduce nuevas características que prometen remodelar la forma en que los desarrolladores crean aplicaciones impulsadas por IA.
La actualización es parte de la serie de anuncios”12 días de OpenAI”, donde la compañía lanza nuevas funciones y actualizaciones para sus principales productos.
Junto con el modelo o1, OpenAI tiene también anunció mejoras en su API en tiempo real para interacciones de voz y un nuevo método de ajuste de preferencias, que brinda a los desarrolladores una flexibilidad sin precedentes.
El modelo o1-2024-12-17 reemplaza la versión preliminar de o1 lanzada a principios de este año. Según OpenAI, el modelo actualizado ofrece”más completo”. y respuestas precisas, particularmente para preguntas relacionadas con programación y negocios, y es menos probable que rechace solicitudes incorrectamente”. Estas mejoras, junto con una reducción del 60 % en el uso de tokens de razonamiento, hacen que el modelo o1 sea más rápido, más eficiente y más versátil.
Avanzando en el razonamiento a través de API con el modelo o1
El modelo o1 de OpenAI está diseñado para abordar tareas que requieren consistencia lógica y profundidad analítica, superando iteraciones anteriores en puntos de referencia como SWE-Bench Verified y AIME.
OpenAI informa que la precisión de las tareas de programación ha aumentado del 52,3 % al 76,6 %, mientras que el rendimiento en problemas matemáticos saltó del 42 % a casi el 80 %.
Fuente: OpenAI
Una característica destacada es el soporte de salida estructurada, que permite a los desarrolladores generar respuestas en formatos predefinidos como JSON.
Esto garantiza una integración perfecta con sistemas externos como API y bases de datos, lo que hace que el modelo sea ideal para aplicaciones de atención al cliente, logística y análisis de datos.
El modelo también introduce capacidades de razonamiento visual. permitiendo el análisis de imágenes para tareas como depuración o investigación científica. Por ejemplo, los desarrolladores ahora pueden ingresar datos visuales, como documentos escaneados o planos, y recibir respuestas contextuales.
Además, un nuevo parámetro de”esfuerzo de razonamiento”permite a los desarrolladores controlar cuánto tiempo dedica el modelo a cada tarea, equilibrando la precisión y la eficiencia.
OpenAI explicó en su blog:”Estamos avanzando reducimos el acceso de forma incremental mientras trabajamos para ampliar el acceso a niveles de uso adicionales y aumentar los límites de velocidad”.
Mejora de las interacciones de voz con API en tiempo real
OpenAI también tuvo un impacto significativo actualizaciones a su API en tiempo real, que impulsa las interacciones de voz en tiempo real. La incorporación de WebRTC, comunicación web en tiempo real, un protocolo para comunicación de baja latencia, permite a los desarrolladores crear aplicaciones de voz fluidas para tutores virtuales, asistentes y herramientas de traducción. Permite conexiones punto a punto (P2P) sin necesidad de complementos ni software adicionales.
OpenAI destacó las ventajas de WebRTC, indicando, “En escenarios en los que desea conectarse a un modelo en tiempo real desde un cliente inseguro a través de la red (como un navegador web), recomendamos utilizar el método de conexión WebRTC. WebRTC está mejor equipado para manejar estados de conexión variables y proporciona una serie de API convenientes para capturar entradas de audio del usuario y reproducir transmisiones de audio remotas desde el modelo. “
La implementación de WebRTC utiliza los llamados tokens efímeros, Claves API temporales diseñadas específicamente para autenticar de forma segura aplicaciones del lado del cliente cuando se conectan a OpenAI Realtime API a través de WebRTC. Su propósito es garantizar un mecanismo de autenticación seguro y de corta duración que evite la exposición de claves API estándar confidenciales directamente en entornos de clientes como navegadores web.
Imagen: OpenAI
Las actualizaciones de Realtime API simplifican el proceso de desarrollo, reducen el código necesario para las aplicaciones de voz y, al mismo tiempo, mejoran la calidad del audio y la precisión de la respuesta. Los desarrolladores ahora pueden crear aplicaciones que comiencen a formular respuestas mientras los usuarios siguen hablando, mejorando la capacidad de respuesta.
Los ajustes de precios hacen que las aplicaciones de voz sean más accesibles. El costo de los tokens de audio GPT-4o se ha reducido en un 60%, mientras que los tokens de entrada en caché son ahora un 87,5% más baratos. OpenAI también ha presentado GPT-4o mini, una opción rentable para los desarrolladores que buscan alternativas asequibles, con un precio de 10 dólares por millón de tokens de entrada.
Refinamiento del comportamiento de la IA con ajuste de preferencias
El ajuste de preferencias es un nuevo método de personalización que permite a los desarrolladores refinar el comportamiento del modelo basándose en comparaciones de respuestas pareadas. A diferencia del ajuste fino tradicional, que se basa en pares exactos de entrada y salida, el ajuste fino de preferencias le enseña al modelo a distinguir entre respuestas preferidas y menos deseables.
OpenAI describe este método como particularmente efectivo para tareas subjetivas, como como adaptar el tono y el estilo en la escritura creativa o garantizar el cumplimiento de requisitos de formato específicos. Según OpenAI, los primeros usuarios, como una empresa de análisis financiero, informaron que el ajuste de preferencias mejoró la precisión de la respuesta en un 5 % para consultas complejas fuera de distribución.
“Comenzamos a probar el ajuste de preferencias con socios confiables que han visto resultados prometedores hasta ahora. Por ejemplo, Rogo AI (se abre en una ventana nueva) está creando un asistente de inteligencia artificial para analistas financieros que divide consultas complejas en subconsultas.
Utilizando su punto de referencia creado por expertos, Rogo-Golden, descubrieron que, si bien el ajuste fino supervisado enfrentaba desafíos con la expansión de consultas fuera de distribución, como la falta de métricas como ARR para consultas como”¿qué tan rápido es?””La empresa X está creciendo”: el ajuste de preferencias resolvió estos problemas y mejoró el rendimiento del 75 % de precisión en el modelo base a más del 80 %.
Ampliación de las opciones del SDK para Desarrolladores
Para admitir una gama más amplia de entornos de programación, OpenAI también ha introducido SDK oficiales para Ir y Java, junto con élbibliotecas existentes para Python, Node.js y.NET. Estos SDK simplifican la integración y permiten a los desarrolladores implementar modelos de IA en sistemas backend escalables o en empresas. aplicaciones.
El SDK Go está diseñado para aplicaciones del lado del servidor livianas y eficientes, mientras que el SDK Java atiende a soluciones de nivel empresarial, ofreciendo escritura sólida y soporte sólido para proyectos a gran escala. La documentación de OpenAI proporciona orientación detallada para aprovechar estas nuevas herramientas.