Google啟動Gemini 2.5計算機使用，AI代理，可控制您的瀏覽器

Google has announced a developer preview of its Gemini 2.5 Computer Use model, a new AI agent that can control a web browser to perform tasks for users.該工具現在為通過Google ai studio 和vertex ai 。

此版本將Google與來自OpenAI和人類等競爭對手的類似AI代理人進行直接競爭。該技術允許AI查看屏幕上的內容，然後單擊，鍵入和導航網站以自動化複雜的數字瑣事。

此舉標誌著超越簡單聊天機器人的重要一步。它旨在創造助手，可以代表用戶積極完成工作，從而逐步升級，以建立真正的自主AI代理。

“>

Gemini如何學習單擊，輸入和滾動

在其核心上，Gemini 2.5計算機使用模型在Google的文檔中所描述的。

而不僅僅是生成文本，而是AI的目標是製作動作。當開發人員發送初始請求時，該過程開始了，其中包括用戶的高級目標，當前環境的屏幕截圖以及最近動作的歷史。

基於Gemini 2.5 Pro的高級視覺理解和推理能力，模型分析了這些輸入以解釋屏幕上的元素。然後，它生成一個響應，通常是一個稱為“ function_call”的結構化命令，該命令代表特定的UI操作，例如單擊坐標或將文本鍵入字段中。

[嵌入式內容]

至關重要，模型不會執行這些操作本身。開發人員自己的客戶端代碼接收`function_call’，並負責將其轉換為目標環境中的真實命令，例如Web瀏覽器。根據Google，該模型主要針對瀏覽器進行優化，但也顯示了移動UI控制的希望。

執行操作後，客戶端應用程序將捕獲新的屏幕截圖和當前URL。然後將此新狀態發送回計算機使用模型作為“ function_Response”，重新啟動循環。這個迭代過程允許代理到評估其最後一個動作的結果，並確定下一個邏輯步驟 simple use use uss use uss use simple the simper the Uppers the Mike the Mike the Mights the Mote and the Mote and a tocation a a toces and a a tovers a a a toces and a a storge。它的功能包括使用搜索欄導航到特定的URL，滾動，懸停光標以揭示菜單，甚至執行拖放操作，為其提供了一種用於基於Web的工作流程的多功能工具包。

自動化。

[嵌入式內容]

顯著升溫已經具有競爭激烈的領域，使科技巨頭之間的比賽升級，以開發有能力的“代理AI”。

這種新的模型代表了從對話聊天機器人到自主系統的戰略行業樞紐，可以理解和操作為人類設計的數字工作流程。 Anthropic是早期的推動者，它於2024年10月為其Claude 3.5十四行詩模型引入了“計算機使用”功能。

最近，擬人化開始了一個謹慎，以安全性的飛行員的“ Claude for Chrome”瀏覽。在2025年1月介紹了最初的“操作員”代理之後，該公司於2025年7月推出了功能更強大的ChatGpt代理。與Google僅瀏覽器的型號不同，ChatGpt Agent經營著一台“虛擬計算機”，使其可以訪問代碼執行終端的瀏覽器。作為一位微軟副總裁查爾斯·拉曼娜（Charles Lamanna），簡潔地捕捉了行業的最終目標:“如果一個人可以使用該應用程序，代理也可以。”

，雖然Gemini 2.5計算機使用模型是新的公開版本，但它基於Google長期運行的內部研究。該技術的版本已經在為搜索中的AI模式下的研究原型項目水手和代理功能等內部工具提供動力，這表明了從實驗到面向開發人員的產品的清晰路徑。

Google聲稱其模型在幾個網絡和移動控制基准上勝過領先的替代方案，包括在線維持較低的Latenty，包括在線- mind2web and androidworld。早期訪問夥伴已經回應了這些績效主張。

一個測試儀，AI助理POKE.com，指出:“ Gemini 2.5計算機使用遠遠超出了競爭的領先地位，通常比我們考慮過的下一個最佳解決方案更快，更好的解決方案。在復雜情況下，在我們最艱難的evals上，績效提高了多達18％。”

儘管有迅速的創新，但對這些代理商的現實有效性的疑問仍然存在。

2025年5月的卡內基·梅隆大學（Carnegie Mellon University）的一項研究發現，即使是AI代理商也與復雜的商業自動化任務鬥爭，甚至最高的AI代理商也很難。這種懷疑是由一些行業領導人共同的，令人困惑的首席執行官Aravind Srinivas敦促“任何人說代理商將在2025年工作的人都應該持懷疑態度。”

解決潛在的風險，Google已建立在重要的安全護欄中。該模型可以在執行潛在敏感的動作之前，需要“safety_decision’>要求“safety_decision’> safety_decision’，在執行潛在敏感的動作之前，要執行潛在的敏感動作，例如購買或購買或處理個人數據。隨著技術的成熟，這種人類的循環方法是一種關鍵的保障。

Google啟動Gemini 2.5計算機使用，AI代理，可控制您的瀏覽器

Published by All Things Windows on October 8, 2025

Gemini如何學習單擊，輸入和滾動

IT Info

歐盟推出“人工智能大陸”計劃，提昇科技主權並與美國、中國競爭

IT Info

Google拒絕在雙子座AI中修復關鍵的“ ASCII走私”缺陷

IT Info

Anthropic的“ Petri”工具使用AI來審核其他AI，以實現風險行為

Google啟動Gemini 2.5計算機使用，AI代理，可控制您的瀏覽器

Published by All Things Windows on October 8, 2025

Gemini如何學習單擊，輸入和滾動

Related Posts

IT Info

歐盟推出“人工智能大陸”計劃，提昇科技主權並與美國、中國競爭

IT Info

Google拒絕在雙子座AI中修復關鍵的“ ASCII走私”缺陷

IT Info

Anthropic的“ Petri”工具使用AI來審核其他AI，以實現風險行為