O Google anunciou uma prévia para desenvolvedores do modelo Gemini 2.5 Computer Use, um novo agente de IA que pode controlar um navegador da Web para executar tarefas para os usuários. A ferramenta agora está disponível para desenvolvedores por meio do Google AI Studio e Vertex AI.
Esta versão coloca o Google em concorrência direta com agentes de IA semelhantes de rivais como OpenAI e Anthropic. A tecnologia permite que a IA veja o que está na tela e clique, digite e navegue em sites para automatizar tarefas digitais complexas.
A mudança marca um passo significativo além dos simples chatbots. O objetivo é criar assistentes que possam concluir ativamente o trabalho em nome de um usuário, intensificando a corrida para construir agentes de IA verdadeiramente autônomos.
Como o Gemini aprende a clicar, digitar e rolar
Em sua essência, o modelo Gemini 2.5 Computer Use opera no que a documentação do Google descreve como um loop de agência contínuo.
Em vez de apenas gerar texto, o objetivo da IA é produzir ações. O processo começa quando um desenvolvedor envia uma solicitação inicial, que inclui o objetivo de alto nível do usuário, uma captura de tela do ambiente atual e um histórico de ações recentes.
Construído com base nos recursos avançados de compreensão visual e raciocínio do Gemini 2.5 Pro, o modelo analisa essas entradas para interpretar os elementos na tela. Em seguida, ele gera uma resposta, normalmente um comando estruturado chamado `function_call`, que representa uma ação específica da UI, como clicar em uma coordenada ou digitar texto em um campo.
[conteúdo incorporado]
Crucialmente, o modelo não executa essas ações sozinho. O próprio código do lado do cliente do desenvolvedor recebe o `function_call` e é responsável por traduzi-lo em um comando real no ambiente de destino, como um navegador da web. O modelo é otimizado principalmente para navegadores, mas também se mostra promissor para controle de UI móvel, de acordo com o Google.
Depois que a ação é executada, o aplicativo cliente captura uma nova captura de tela e o URL atual. Este novo estado é então enviado de volta ao modelo Computer Use como uma `function_response`, reiniciando o loop. Esse processo iterativo permite que o agente avalie o resultado de sua última ação e determine a próxima etapa lógica até que a tarefa do usuário seja concluída.
O modelo oferece suporte a uma série de ações além de simples cliques e digitação. Seus recursos incluem navegar para URLs específicos, usar a barra de pesquisa, rolar, passar o cursor para revelar menus e até mesmo executar operações de arrastar e soltar, fornecendo um kit de ferramentas versátil para automatizar fluxos de trabalho baseados na Web.
[conteúdo incorporado]
Uma nova frente na guerra de agentes de IA
A entrada do Google com o Gemini 2.5 Computer Use aquece significativamente
Essa nova classe de modelo representa um pivô estratégico da indústria, de chatbots conversacionais a sistemas autônomos que podem compreender e operar fluxos de trabalho digitais projetados para humanos.
O lançamento é uma resposta direta aos movimentos dos principais rivais. A Anthropic foi pioneira, introduzindo um recurso de “uso do computador” para seu modelo Claude 3.5 Sonnet em outubro de 2024.
Mais recentemente, a Anthropic iniciou um piloto cauteloso e focado na segurança para sua extensão de navegador “Claude for Chrome”.
OpenAI tem sido particularmente agressivo. Depois de apresentar seu agente “Operador” inicial em janeiro de 2025, a empresa lançou o Agente ChatGPT, muito mais poderoso, em julho de 2025. Ao contrário do modelo somente navegador do Google, o Agente ChatGPT opera um “computador virtual”, dando-lhe acesso a um terminal para execução de código junto com seu navegador.
A Microsoft também é um player importante, visando a automação empresarial com um recurso semelhante em seu Copilot Studio. Como Charles Lamanna, vice-presidente da Microsoft, capturou sucintamente o objetivo final do setor: “Se uma pessoa pode usar o aplicativo, o agente também pode”.
Embora o modelo Gemini 2.5 Computer Use seja um novo lançamento público, ele se baseia em pesquisas internas de longa data do Google. Versões dessa tecnologia já estão alimentando ferramentas internas, como o protótipo de pesquisa Project Mariner e recursos de agente no Modo IA na Pesquisa, demonstrando um caminho claro desde o experimento até o produto voltado para o desenvolvedor.
Desempenho, segurança e o futuro
O Google reivindica seu modelo supera as principais alternativas em vários benchmarks de controle para web e dispositivos móveis, incluindo Online-Mind2Web e AndroidWorld, ao mesmo tempo que mantém menor latência. Os parceiros de acesso antecipado repetiram essas afirmações de desempenho.
Um testador, o assistente de IA Poke.com, afirmou: “O Gemini 2.5 Computer Use está muito à frente da concorrência, muitas vezes sendo 50% mais rápido e melhor do que as próximas melhores soluções que consideramos.”
Outro, o serviço de automação Autotab, relatou que “Gemini 2.5 Computer Use superou outros modelos na análise confiável de contexto em contexto complexo casos, aumentando o desempenho em até 18% em nossas avaliações mais difíceis.”
Apesar da rápida inovação, persistem dúvidas sobre a eficácia desses agentes no mundo real.
Um estudo de maio de 2025 da Carnegie Mellon University descobriu que mesmo os principais agentes de IA enfrentam dificuldades com tarefas complexas de automação de negócios. Esse ceticismo é compartilhado por alguns líderes do setor, com o CEO da Perplexity, Aravind Srinivas, recomendando que “qualquer pessoa que diga que os agentes trabalharão em 2025 deve ser cética”.
Para lidar com riscos potenciais, o Google construiu barreiras de segurança significativas. O modelo pode emitir uma `decisão_de segurança` que exige confirmação explícita do usuário antes de executar ações potencialmente confidenciais, como fazer uma compra ou manipular dados pessoais. Essa abordagem humana é uma salvaguarda crítica à medida que a tecnologia amadurece.