Google ha anunciado una vista previa para desarrolladores de su modelo Gemini 2.5 Computer Use, un nuevo agente de inteligencia artificial que puede controlar un navegador web para realizar tareas para los usuarios. La herramienta ahora está disponible para los desarrolladores a través de Google AI Studio y Vertex AI.

Este lanzamiento coloca a Google en competencia directa con agentes de IA similares de rivales como OpenAI y Anthropic. La tecnología permite a la IA ver lo que hay en la pantalla y luego hacer clic, escribir y navegar por sitios web para automatizar tareas digitales complejas.

La medida marca un paso significativo más allá de los simples chatbots. Su objetivo es crear asistentes que puedan completar activamente el trabajo en nombre de un usuario, intensificando la carrera para crear agentes de IA verdaderamente autónomos.

Cómo aprende Gemini a hacer clic, escribir y desplazarse

En esencia, el modelo de uso de computadoras Gemini 2.5 opera en lo que la documentación de Google describe como una agencia continua. bucle.

En lugar de simplemente generar texto, el objetivo de la IA es producir acciones. El proceso comienza cuando un desarrollador envía una solicitud inicial, que incluye el objetivo de alto nivel del usuario, una captura de pantalla del entorno actual y un historial de acciones recientes.

Construido sobre la comprensión visual avanzada y las capacidades de razonamiento de Gemini 2.5 Pro, el modelo analiza estas entradas para interpretar los elementos en pantalla. Luego genera una respuesta, generalmente un comando estructurado llamado `function_call`, que representa una acción específica de la interfaz de usuario, como hacer clic en una coordenada o escribir texto en un campo.

[contenido incrustado]

Lo más importante es que el modelo no ejecuta estas acciones por sí mismo. El propio código del lado del cliente del desarrollador recibe la `function_call` y es responsable de traducirla en un comando real en el entorno de destino, como un navegador web. El modelo está optimizado principalmente para navegadores, pero también es prometedor para el control de la interfaz de usuario móvil, según Google.

Después de ejecutar la acción, la aplicación cliente captura una nueva captura de pantalla y la URL actual. Este nuevo estado luego se envía de regreso al modelo de uso de la computadora como una”respuesta_función”, reiniciando el ciclo. Este proceso iterativo permite al agente evaluar el resultado de su última acción y determinar el siguiente paso lógico hasta que se complete la tarea del usuario.

El modelo admite una variedad de acciones más allá de simples clics y escritura. Sus capacidades incluyen navegar a URL específicas, usar la barra de búsqueda, desplazarse, pasar el cursor para revelar menús e incluso realizar operaciones de arrastrar y soltar, lo que le brinda un conjunto de herramientas versátil para automatizar flujos de trabajo basados ​​en la web.

[contenido incorporado]

Un nuevo frente en las guerras de agentes de IA

La entrada de Google con Gemini 2.5 Computer Use significativamente calienta un campo que ya es competitivo, intensificando la carrera entre los gigantes tecnológicos para desarrollar una”IA agente”capaz.

Esta nueva clase de modelo representa un giro estratégico de la industria desde chatbots conversacionales hasta sistemas autónomos que pueden comprender y operar flujos de trabajo digitales diseñados para humanos.

El lanzamiento es una respuesta directa a los movimientos de rivales clave. Anthropic fue uno de los primeros en actuar, al introducir una función de “Uso de computadora” para su modelo Claude 3.5 Sonnet en octubre de 2024.

Más recientemente, Anthropic inició una prueba piloto cautelosa y centrada en la seguridad para su extensión de navegador “Claude para Chrome”.

OpenAI ha sido particularmente agresivo. Después de presentar su agente”Operador”inicial en enero de 2025, la compañía lanzó el Agente ChatGPT, mucho más poderoso, en julio de 2025. A diferencia del modelo de solo navegador de Google, el Agente ChatGPT opera una”computadora virtual”, lo que le brinda acceso a una terminal para la ejecución de código junto con su navegador.

Microsoft también es un actor importante, apuntando a la automatización empresarial con una característica similar en su Copilot Studio. Como un vicepresidente de Microsoft, Charles Lamanna, captó sucintamente el objetivo final de la industria:”Si una persona puede usar la aplicación, el agente también puede hacerlo”.

Si bien el modelo de uso de computadoras Gemini 2.5 es una nueva versión pública, se basa en una investigación interna de larga data de Google. Las versiones de esta tecnología ya están impulsando herramientas internas como el prototipo de investigación Project Mariner y funciones de agencia dentro del modo AI en la búsqueda, lo que demuestra un camino claro desde el experimento hasta el producto orientado al desarrollador.

Rendimiento, seguridad y el camino por delante

Google afirma que su modelo supera a las principales alternativas en varios puntos de referencia de control web y móvil, incluidos Online-Mind2Web y AndroidWorld, al tiempo que mantiene una latencia más baja. Los socios de acceso temprano se han hecho eco de estas afirmaciones de rendimiento.

Un evaluador, el asistente de inteligencia artificial Poke.com, afirmó:”Gemini 2.5 Computer Use está muy por delante de la competencia y a menudo es un 50 % más rápido y mejor que las siguientes mejores soluciones que hemos considerado”.

Otro, el servicio de automatización Autotab, informó que”Gemini 2.5 Computer Use superó a otros modelos en el análisis confiable de contexto en contextos complejos”. casos, aumentando el rendimiento hasta en un 18 % en nuestras evaluaciones más estrictas”.

A pesar de la rápida innovación, persisten las dudas sobre la efectividad de estos agentes en el mundo real.

Un estudio de mayo de 2025 de la Universidad Carnegie Mellon encontró que incluso los mejores agentes de IA luchan con tareas complejas de automatización empresarial. Este escepticismo es compartido por algunos líderes de la industria, y el director ejecutivo de Perplexity, Aravind Srinivas, insta a que”cualquiera que diga que los agentes trabajarán en 2025 debe ser escéptico”.

Para abordar los riesgos potenciales, Google ha incorporado importantes barreras de seguridad. El modelo puede emitir una `decisión_de_seguridad` que requiere la confirmación explícita del usuario antes de ejecutar acciones potencialmente confidenciales, como realizar una compra o manejar datos personales. Este enfoque humano es una salvaguarda fundamental a medida que la tecnología madura.

Categories: IT Info