Google has announced a developer preview of its Gemini 2.5 Computer Use model, a new AI agent that can control a web browser to perform tasks for users.該工具現在為通過Google ai studio 和vertex ai

此版本將Google與來自OpenAI和人類等競爭對手的類似AI代理人進行直接競爭。該技術允許AI查看屏幕上的內容,然後單擊,鍵入和導航網站以自動化複雜的數字瑣事。

此舉標誌著超越簡單聊天機器人的重要一步。它旨在創造助手,可以代表用戶積極完成工作,從而逐步升級,以建立真正的自主AI代理。

“>

Gemini如何學習單擊,輸入和滾動

在其核心上,Gemini 2.5計算機使用模型在Google的文檔中所描述的

而不僅僅是生成文本,而是AI的目標是製作動作。當開發人員發送初始請求時,該過程開始了,其中包括用戶的高級目標,當前環境的屏幕截圖以及最近動作的歷史。

基於Gemini 2.5 Pro的高級視覺理解和推理能力,模型分析了這些輸入以解釋屏幕上的元素。然後,它生成一個響應,通常是一個稱為“ function_call”的結構化命令,該命令代表特定的UI操作,例如單擊坐標或將文本鍵入字段中。

[嵌入式內容]

至關重要,模型不會執行這些操作本身。開發人員自己的客戶端代碼接收`function_call’,並負責將其轉換為目標環境中的真實命令,例如Web瀏覽器。根據Google,該模型主要針對瀏覽器進行優化,但也顯示了移動UI控制的希望。

執行操作後,客戶端應用程序將捕獲新的屏幕截圖和當前URL。然後將此新狀態發送回計算機使用模型作為“ function_Response”,重新啟動循環。這個迭代過程允許代理到評估其最後一個動作的結果,並確定下一個邏輯步驟 simple use use uss use uss use simple the simper the Uppers the Mike the Mike the Mights the Mote and the Mote and a tocation a a toces and a a tovers a a a toces and a a storge。它的功能包括使用搜索欄導航到特定的URL,滾動,懸停光標以揭示菜單,甚至執行拖放操作,為其提供了一種用於基於Web的工作流程的多功能工具包。

自動化。

[嵌入式內容]

顯著升溫已經具有競爭激烈的領域,使科技巨頭之間的比賽升級,以開發有能力的“代理AI”。

這種新的模型代表了從對話聊天機器人到自主系統的戰略行業樞紐,可以理解和操作為人類設計的數字工作流程。 Anthropic是早期的推動者,它於2024年10月為其Claude 3.5十四行詩模型引入了“計算機使用”功能。

最近,擬人化開始了一個謹慎,以安全性的飛行員的“ Claude for Chrome”瀏覽。在2025年1月介紹了最初的“操作員”代理之後,該公司於2025年7月推出了功能更強大的ChatGpt代理。與Google僅瀏覽器的型號不同,ChatGpt Agent經營著一台“虛擬計算機”,使其可以訪問代碼執行終端的瀏覽器。作為一位微軟副總裁查爾斯·拉曼娜(Charles Lamanna),簡潔地捕捉了行業的最終目標:“如果一個人可以使用該應用程序,代理也可以。”

,雖然Gemini 2.5計算機使用模型是新的公開版本,但它基於Google長期運行的內部研究。該技術的版本已經在為搜索中的AI模式下的研究原型項目水手和代理功能等內部工具提供動力,這表明了從實驗到面向開發人員的產品的清晰路徑。

Google聲稱其模型在幾個網絡和移動控制基准上勝過領先的替代方案,包括在線維持較低的Latenty,包括在線- mind2web and androidworld。早期訪問夥伴已經回應了這些績效主張。

一個測試儀,AI助理POKE.com,指出:“ Gemini 2.5計算機使用遠遠超出了競爭的領先地位,通常比我們考慮過的下一個最佳解決方案更快,更好的解決方案。在復雜情況下,在我們最艱難的evals上,績效提高了多達18%。”

儘管有迅速的創新,但對這些代理商的現實有效性的疑問仍然存在。

2025年5月的卡內基·梅隆大學(Carnegie Mellon University)的一項研究發現,即使是AI代理商也與復雜的商業自動化任務鬥爭,甚至最高的AI代理商也很難。這種懷疑是由一些行業領導人共同的,令人困惑的首席執行官Aravind Srinivas敦促“任何人說代理商將在2025年工作的人都應該持懷疑態度。”

解決潛在的風險,Google已建立在重要的安全護欄中。該模型可以在執行潛在敏感的動作之前,需要“safety_decision’>要求“safety_decision’> safety_decision’,在執行潛在敏感的動作之前,要執行潛在的敏感動作,例如購買或購買或處理個人數據。隨著技術的成熟,這種人類的循環方法是一種關鍵的保障。