OpenAI ha equipado el modo de voz avanzado de ChatGPT con capacidades de visión, lo que permite a los usuarios compartir videos y pantallas en vivo para análisis y asistencia en tiempo real.

Esto marca una importante expansión de la funcionalidad de ChatGPT, transformándolo en un asistente de IA visualmente consciente capaz de interactuar con los mundos físico y digital.

Anunciado como parte de los “12 Días de OpenAI”, la actualización mejora la capacidad de ChatGPT para ayudar con tareas del mundo real mientras mantiene su inteligencia conversacional.

IA visual en acción: Cómo ChatGPT procesa videos y pantallas

Las nuevas capacidades visuales de ChatGPT permiten a los usuarios interactuar con la IA apuntando las cámaras de sus teléfonos inteligentes a objetos o compartir las pantallas de sus dispositivos. La función abre una amplia gama de aplicaciones, desde explicar configuraciones complejas en pantalla hasta identificar objetos físicos en el entorno del usuario.

Durante una demostración en vivo, OpenAI mostró la IA guiando a un usuario. durante el proceso de preparación del café, el sistema identificó herramientas esenciales, como un filtro de café y una cafetera, que ofrecen instrucciones claras paso a paso.

Otro ejemplo involucró a ChatGPT analizando una ecuación matemática mostrada en una pantalla y explicando detalladamente la solución. OpenAI explicó que la función conecta la interacción de voz con la capacidad de interpretar entradas visuales para obtener asistencia en tiempo real.

Comparte la pantalla mientras usas Advanced Voice para obtener comentarios instantáneos sobre lo que estés mirando. pic.twitter.com/d4Xm36dwOX

—OpenAI (@OpenAI) 12 de diciembre de 2024

A pesar de sus capacidades, OpenAI reconoció limitaciones en la iteración actual del sistema. En ocasiones, la IA genera respuestas incorrectas, denominadas”alucinaciones”, al interpretar datos visuales complejos. Si bien esto sigue siendo un desafío, OpenAI señaló que se están llevando a cabo mejoras iterativas para mejorar la precisión y la confiabilidad.

El lanzamiento de estas Las capacidades de visión comienzan de inmediato para los usuarios de ChatGPT Plus, Pro y Team, mientras que los suscriptores Enterprise y Education obtendrán acceso a partir de enero de 2025.

Sin embargo, los usuarios de la Unión Europea y países selectos como Suiza, Islandia y Noruega enfrenta retrasos debido al cumplimiento y ajustes regulatorios. Para activar la función, los usuarios deben acceder al Modo de voz avanzado dentro de la aplicación ChatGPT y luego seleccionar las opciones de video o compartir pantalla para habilitar la asistencia visual.

Relacionado: Google presenta Gemini 2.0 y Flash 2.0 con mejores agentes de inteligencia y razonamiento

Actualizaciones anteriores: mejoras de Canvas con integración de Python

Activado El martes, OpenAI lanzó por completo Canvas, un espacio de trabajo de edición colaborativa que ofrece herramientas avanzadas para el refinamiento de texto y código. Lanzado inicialmente en versión beta en octubre de 2024, Canvas reemplaza la interfaz estándar de ChatGPT con un diseño de pantalla dividida, lo que permite a los usuarios trabajar en texto o código mientras participan en intercambios conversacionales con la IA.

La incorporación de la ejecución de Python es una característica destacada de Canvas, que permite a los desarrolladores escribir, probar y depurar scripts directamente dentro de la plataforma. OpenAI demostró su utilidad durante un evento en vivo utilizando Python para generar y perfeccionar visualizaciones de datos. OpenAI describió la característica como”reducir la fricción entre la generación de ideas y su implementación”.

El lunes, OpenAI lanzó oficialmente Sora, su herramienta avanzada de IA para generar videos a partir de indicaciones de texto, lo que marca una nueva era para la IA creativa. en cuentas pagas de ChatGPT, Sora permite a los usuarios animar imágenes fijas, ampliar videos existentes y fusionar escenas en narrativas coherentes.

El viernes pasado, OpenAI presentó ChatGPT Pro, un nuevo nivel de suscripción premium con un precio de $200 por mes, dirigido a profesionales y empresas que buscan capacidades avanzadas de IA para flujos de trabajo de alta demanda.

El nuevo nivel ChatGPT Pro ofrece funciones exclusivas que incluyen acceso ilimitado a modelos avanzados de IA como GPT-4o, o1 y o1-mini, así como la versión completa del modelo de razonamiento o1, anteriormente denominado”Strawberry”.

Contexto competitivo: el movimiento estratégico de OpenAI en la IA Carrera

La incorporación de capacidades de visión y funcionalidad ampliada en Canvas subraya los esfuerzos de OpenAI para mantener una posición de liderazgo en el cada vez más competitivo panorama de la IA.

Google está avanzando en su Proyecto Astra, un asistente de inteligencia artificial capaz de procesar entradas de video en vivo, que actualmente se encuentra en pruebas limitadas con usuarios seleccionados. Mientras tanto, Meta está perfeccionando sus propias tecnologías de IA visual, destacando el enfoque de toda la industria en integrar la visión en plataformas de IA conversacionales.

Implicaciones de la IA visual en el mundo real

La capacidad de ChatGPT para procesar videos en vivo y pantallas compartidas extiende su utilidad a varios dominios. Para los consumidores, la función simplifica tareas como solucionar problemas del dispositivo, ofrecer explicaciones visuales de la configuración en pantalla o ayudar con proyectos prácticos en casa.

En educación, ChatGPT puede respaldar el aprendizaje remoto mediante la interpretación visual de problemas o materiales compartidos por los estudiantes. Para los profesionales, especialmente aquellos en los campos de diseño, ingeniería o técnicos, la capacidad de ChatGPT para analizar entradas visuales ofrece una nueva capa de funcionalidad, agilizando los flujos de trabajo y aumentando la eficiencia.

Las implicaciones más amplias de esta actualización reflejan una demanda creciente para sistemas de IA que puedan interactuar sin problemas con entornos físicos y digitales. A medida que las tecnologías de IA como ChatGPT evolucionan, su capacidad para comprender y responder al contexto visual será cada vez más central para su adopción en la vida cotidiana.

La actualización de la visión de OpenAI para ChatGPT y sus mejoras en el espacio de trabajo de Canvas señalan un salto significativo avanzar en las capacidades de la IA conversacional. Al integrar herramientas de voz, visión y codificación, OpenAI continúa expandiendo las aplicaciones prácticas de ChatGPT para usuarios en entornos personales, educativos y profesionales.

Categories: IT Info