OpenAI ha presentado Operador, una herramienta de inteligencia artificial basada en navegador capaz de realizar una variedad de tareas en línea, como realizar reservas, completar formularios y administrar pedidos de comestibles.

Disponible exclusivamente para suscriptores de ChatGPT Pro con el plan mensual de $200, la herramienta representa el último paso de OpenAI hacia una IA que interactúa activamente con entornos digitales.

Al aprovechar un modelo de agente que utiliza computadora (CUA) recientemente desarrollado, Operator establece Se distingue de los asistentes de IA tradicionales que se basan en texto o API predefinidas.

“Operator es uno de nuestros primeros agentes, que son IA capaces de trabajar para usted de forma independiente: le asigna una tarea y la ejecutará”, explicó OpenAI en su anuncio oficial.

Diseñado para imitar las interacciones humanas con interfaces gráficas de usuario (GUI), el Operador interpreta y manipula elementos en pantalla como botones, menús desplegables y campos de texto, lo que le permite funcionar eficazmente en una amplia gama de sitios web.

Cómo funciona el operador

En esencia, Operador utiliza CUA, un modelo que combina el modelo GPT-4o de OpenAI con capacidades avanzadas de razonamiento y visión.

A diferencia de los sistemas tradicionales que dependen de API, CUA permite a Operador”ver”e interactuar. con páginas web a través capturas de pantalla. Esto permite al agente operar en plataformas sin requerir integraciones específicas.

Los usuarios proporcionan instrucciones de tareas a través de una interfaz de texto y el Operador las procesa en un navegador remoto alojado en los servidores de OpenAI.

La herramienta ejecuta acciones paso a paso, deteniéndose para recibir la entrada del usuario si encuentra tareas que requieren información confidencial, como credenciales de inicio de sesión o verificaciones CAPTCHA.

OpenAI también ha incorporado un”modo de control”, que permite a los usuarios asumir el control de la sesión en cualquier momento.

Además, Operador admite la multitarea. Los usuarios pueden indicarle que realice múltiples acciones simultáneamente, como reservar una mesa en OpenTable mientras se piden entradas para conciertos a través de StubHub, señala que estas capacidades agilizan los flujos de trabajo repetitivos, lo que ahorra a los usuarios un tiempo considerable.

[contenido integrado]

Medidas de privacidad y seguridad

Para abordar las preocupaciones sobre la privacidad y la seguridad, OpenAI ha incorporado múltiples salvaguardas dentro del Operador antes de ejecutar cualquier acción con consecuencias externas, como completar una compra, el. El agente hace una pausa y solicita la confirmación del usuario. Las tareas sensibles, incluidas las transacciones financieras o las decisiones de solicitud de empleo, están restringidas deliberadamente.

“El operador está capacitado para garantizar que el usuario mantenga el control en todo momento”, explicó el investigador de OpenAI, Casey. Chu.

La navegación cautelosa del sistema evita acciones no deseadas, mientras que su configuración de privacidad permite a los usuarios eliminar datos de navegación y optar por no contribuir con sus datos al entrenamiento del modelo. OpenAI también ha creado defensas contra sitios web adversarios, como mensajes ocultos o códigos maliciosos diseñados para engañar al agente.

Parámetros de rendimiento y ventaja competitiva

El operador entra un campo creciente de herramientas de automatización de IA, incluido Computer Use de Anthropic y Mariner de Google DeepMind. Estos modelos competitivos tienen como objetivo ejecutar tareas basadas en navegador, pero OpenAI afirma que el diseño impulsado por CUA de Operador proporciona un rendimiento superior.

En WebVoyager, un punto de referencia que evalúa la ejecución de tareas del navegador, Operador obtuvo una puntuación del 87 %, superando a Mariner (83,5). %) y la función Uso de la computadora de Anthropic (56%). En evaluaciones más amplias a nivel de sistema como OSWorld, que prueba tareas como la combinación de archivos PDF y la edición de imágenes, Operador logró un 38,1 % en comparación con el uso de la computadora. 22%.

Si bien los evaluadores humanos aún superan a la IA en estos puntos de referencia (con una puntuación del 72,4 % en OSWorld), los resultados del operador demuestran un progreso mensurable en las capacidades prácticas de la IA.

Anthropic ha descrito su modelo de uso de computadoras como capaz de ejecutar tareas que implican”decenas o incluso cientos de pasos”, según el director científico Jared Kaplan. Sin embargo, la dependencia del operador de la interpretación visual en lugar de las API le permite interactuar con un público más amplio. gama de plataformas, ampliando su versatilidad.

Aplicaciones y casos de uso

En demostraciones en vivo, Operador mostró su capacidad para automatizar diversas tareas, el investigador de OpenAI, Yash Kumar. demostró la herramienta para realizar una reserva en un restaurante en OpenTable, comprar entradas para conciertos en StubHub y agregar artículos a un carrito de compras de Instacart, todo al mismo tiempo

Kumar enfatizó el ahorro de tiempo proporcionado por el Operador y afirmó:”Tengo una cita nocturna todos los jueves”, dice Kumar. “Así que todos los jueves por la mañana le pido al Operador que me envíe una lista de cinco restaurantes que tienen una mesa para dos esa noche. Por supuesto que podría hacerlo, pero me lleva 10 minutos. Y muchas veces me olvido de hacerlo. Con Operador, puedo ejecutar la tarea con un solo clic. No hay carga de reserva”.

OpenAI también está colaborando con plataformas como DoorDash, Uber y Priceline para perfeccionar la funcionalidad de la herramienta. Por ejemplo, el operador puede recomendar servicios preestablecidos para tareas específicas, como elegir aerolíneas preferidas. en Booking.com o reservando viajes a través de Uber.

Una visión más amplia para la inteligencia general artificial

El lanzamiento de Operador se alinea con la visión más amplia de OpenAI. ambiciones de lograr inteligencia artificial general (AGI). un paso esencial hacia este objetivo.”AGI se definirá por sistemas que puedan usar computadoras igual que los humanos”, explicó Wang, prediciendo que tales avances podrían surgir dentro de los próximos dos a cuatro años.

Mientras el operador permanezca En su fase de investigación, OpenAI planea ampliar su disponibilidad para los usuarios de ChatGPT Plus, Team y Enterprise. Además, la empresa pretende lanzar el modelo CUA como una API, lo que permitirá a los desarrolladores crear agentes personalizados adaptados a industrias específicas.

Desarrollo futuro y limitaciones

A pesar de sus características prometedoras, actualmente Operador tiene problemas con flujos de trabajo complejos, como administrar calendarios o crear presentaciones de diapositivas. OpenAI reconoce estas limitaciones y enfatiza que los comentarios de los usuarios serán fundamentales para perfeccionar la herramienta. La compañía también planea integrar las capacidades de Operador directamente en ChatGPT para una ejecución perfecta de tareas.

La visión a largo plazo de OpenAI implica posicionar a Operador como algo más que una simple herramienta de productividad. Al automatizar complejos flujos de trabajo, la empresa espera redefinir la forma en que los usuarios interactúan con los sistemas digitales, allanando el camino para aplicaciones más amplias en los negocios, la educación y los servicios públicos.

Categories: IT Info