技術行業對可以積極操作計算機的人工智能的追求,而不僅僅是對查詢做出響應,也看到了另一個潛在的進入者,因為符號指向Google探索其AI工作室中的“計算機使用”功能。

此開發,由代碼痕跡引起的暗示,由代碼痕跡簡短地出現在5月5日的工程中, a field already active with competitors like Microsoft, Anthropic, and OpenAI.

Google’s Foray into Agentic AI

While Google has not made a formal announcement, the “Computer Use”label aligns with industry terminology for AI systems capable of observing screen content, controlling cursors, and inputting text.

This capability appears connected to Google較輕的重量Gemma 3型號,伴隨代碼目擊的系統消息指出:“ Gemma 3將在您的GCP項目中部署為雲運行服務。更新您的SDK以指向雲運行端點。”

這樣的集成可以使開發人員使用AI Studio相對輕鬆地部署容器化的Gemma實例,並可能單擊一次。 cound運行已經支持了gpu-backed back back back back back back back nocers of serference 和salseme pemme a iD seere a型號是Google開放的輕巧模型,專為效率而設計,通常能夠在單個GPU或TPU上運行。

該文檔還指出了現有的教程,顯示瞭如何使用Vllm或Ollama(例如vllm或Ollama)打包Gemma,並公開了公共HTTPS端點,並將直接集成到AI工作室中的過程可以進一步簡化。集成此類控件可以為AI Studio提供編排層和本地執行沙箱,從而使某些任務可以在設備上運行,同時遠程處理更苛刻的計算,有可能縮短及時設計的距離和開發人員實時API之間的距離。

這不是Google第一次探索AI探索的AI Adments控制數字環境的AI探索。 “Project Mariner,”an early research prototype using Gemini 2.0, was detailed by Google in December as an AI agent that can understand and reason across browser screen information, including pixels, text, and forms. Google表示,作為單一代理商設置的Mariner,“在WebVoyager上獲得了83.5%的最先進結果。 ”

Mariner以前在內部被稱為“ Project Jarvis”,並在2024年11月在Chrome網站上短暫洩漏,當時被描述為網絡衝浪的同伴。 The AI Studio platform itself has been evolving, with features like Gemini 2.5 Pro integration and screen sharing capabilities since May 3, making it a logical home for more advanced agentic tools.

The Competitive Field of Computer-Controlling AI

Google’s potential move follows several other companies that have already introduced or are developing similar AI functionalities.微軟從4月開始在其Copilot Studio中預覽“計算機使用”功能,以促進AI模擬人類在台式機和Web應用程序上的行動來針對企業自動化。 Charles Lamanna, Microsoft’s Corporate Vice President for Business & Industry Copilot, remarked at the time, “If a person can use the app, the agent can too.”

Anthropic was earlier to the scene, updating its Claude 3.5 Sonnet model in October 2024 with an API-based “Computer Use”feature, allowing developers to direct the AI in tasks involving screen interaction and control.據報導,像Asana和Doordash這樣的早期採用者將其用於多步驟過程,儘管該功能被描述為實驗性,有時容易出現啟動時的錯誤。

OpenAI在2025年1月在2025年1月介紹了其“操作員”代理,用於Chatgpt Pro訂閱者,用於使用瀏覽器的工具(使用計算機使用的代理(CUA)模型來互動的瀏覽器,可以使用sublosentitients進行互動,以互動,以便使用sublosentities進行互動。到2月,OpenAI擴大了運營商的可用性。

對代理績效的現實檢查

儘管有所進步,但當前AI代理人在自動處理複雜專業職責方面的實際有效性仍然受到審查。卡內基·梅隆大學(Carnegie Mellon University)於5月5日發表的一項名為“ TheagentCompany”的研究提供了清醒的評估。該研究模擬了一家軟件公司,即使是人類的Claude 3.5十四行詩,也只完成了24%的分配任務,平均運營成本超過6美元。 Google的Gemini 2.0 Flash管理了11.4%的完成,而OpenAI的GPT-4O則獲得了8.6%。

研究人員強調了“缺乏常識,社交技能差和網絡瀏覽中的無能”作為常見問題。例如,與管理或財務角色相比,該研究在軟件開發任務中還表明,代理商在基本文件理解或駁回簡單的屏幕上彈出窗口中掙扎。在軟件開發任務中的性能更好,這可能是由於可用於培訓的公共代碼較大。結論是,儘管AI代理可以協助部分人類工作,但“目前可能不是所有任務的替代者”。這是一個值得注意的性能基準,即與Google的任何新“計算機使用”功能都可以隱含地衡量。

自主邊界及其含義

超越了在有助於或自動化的工具之外,該行業還看到了更多獨立的代理商的崛起。來自中國創業蝴蝶效應的Manus AI於3月6日左右推出,並作為一種自主推銷,能夠計劃和執行數字任務而無需不斷的人類監督,據報導使用Anthropic的Claude和Alibaba的Qwen Qwen。由於安全和宣傳問題,MANUS AI迅速引起了監管機構的關注,Manus AI面對田納西州和阿拉巴馬州的州網絡。 href=“ https://www.fiercehealthcare.com/health-tech/google-cloud-cloud-sees-multi-agent-ai-systems-next-frontier-next-frontier-advancing-tools-build-build-build-manage-manage-manage-manage and-manage” target=“ _空白” conference in April 2025. As Google potentially readies a “Computer Use”feature for AI Studio, its success will depend not only on the technical capabilities and ease of deployment for models like Gemma 3 but also on addressing the reliability and safety considerations that are becoming increasingly prominent in the field of AI-driven computer operation.

The fleeting code commit suggests that Google is actively working to blend desktop-level control with serverless model hosting,有可能將AI工作室變成使用Gemma和未來模型開發的更全面的平台。該“計算機使用”功能是廣泛的還是繼續進行內部實驗,可能取決於這些持續的安全評估和Google不斷發展的代理策略。

Categories: IT Info