Ang pagtugis ng industriya ng tech ng AI na maaaring aktibong gumana ng mga computer, hindi lamang tumugon sa mga query, ay nakakakita ng isa pang potensyal na entrant, dahil ang mga palatandaan ay tumuturo sa Google na naggalugad ng isang”computer use”function sa loob ng AI studio nito.
Ang pag-unlad na ito, hinted at by code traces briefly appearing on May 5,suggests Google is looking to equip its developer platform with tools for AI agents to interact directly with graphical user interfaces and native applications, Ang isang patlang na aktibo sa mga kakumpitensya tulad ng Microsoft, Anthropic, at Openai. Ang mas magaan na timbang na gemma 3 na mga modelo ng Google, bilang isang mensahe ng system na kasama ng Code Sighting ay nakasaad,”Ang Gemma 3 ay ilalagay bilang isang serbisyo ng cloud run sa iyong proyekto ng GCP. I-update ang iyong SDK upang ituro sa endpoint ng cloud run.”href=”https://cloud.google.com/blog/products/ai-machine-learning/serverless-ai-with-gemma-3-on-cloud-run? Ang mga modelo ng Gemma 3 ay bukas, magaan ang mga modelo ng Google na idinisenyo para sa kahusayan, na madalas na may kakayahang tumakbo sa isang solong GPU o TPU. Tumakbo, sa tabi ng Vertex AI at Google Kubernetes Engine (GKE), tulad ng mga suportadong target na pag-deploy. Ang pagsasama ng mga naturang kontrol ay maaaring magbigay ng AI studio ng isang orkestra na layer at isang lokal na sandbox ng pagpapatupad, na nagpapahintulot sa ilang mga gawain na magpatakbo ng on-device habang ang higit na hinihingi na pagkalkula ay hawakan nang malayuan, potensyal na paikliin ang distansya sa pagitan ng agarang disenyo at isang live na API para sa mga nag-develop.”Project Mariner,”isang maagang prototype ng pananaliksik gamit ang Gemini 2.0, ay na detalyado ng Google noong Disyembre Bilang isang ahente ng AI na maaaring maunawaan at dahilan sa buong impormasyon ng screen ng browser, kasama ang mga pixel, text, Sinabi ng Google na si Mariner, bilang isang pag-setup ng ahente,”nakamit ang isang resulta ng state-of-the-art na 83.5% sa WebVoyager.”Ang platform ng AI studio mismo ay umuusbong, na may mga tampok tulad ng Gemini 2.5 Pro Pagsasama at mga kakayahan sa pagbabahagi ng screen mula noong Mayo 3, ginagawa itong isang lohikal na tahanan para sa mas advanced na mga tool ng ahente. Sinimulan ng Microsoft ang pag-preview ng isang tampok na”paggamit ng computer”sa copilot studio nito noong Abril, na target ang automation ng negosyo sa pamamagitan ng pagpapagana ng AI na gayahin ang mga aksyon ng tao sa mga desktop at web apps. Si Charles Lamanna, ang bise presidente ng Corporate ng Microsoft para sa Business & Industry Copilot, ay sinabi sa oras na iyon,”Kung ang isang tao ay maaaring gumamit ng app, ang ahente ay maaari din.”Ang mga maagang adopter tulad ng Asana at Doordash ay naiulat na ginamit ito para sa mga proseso ng multi-hakbang, kahit na ang tampok na ito ay inilarawan bilang eksperimentong at kung minsan ay madaling kapitan ng mga pagkakamali sa paglulunsad. Sa pamamagitan ng Pebrero, pinalawak ng OpenAi ang pagkakaroon ng operator. Ang isang pag-aaral sa Carnegie Mellon University na inilathala noong Mayo 5, na pinamagatang”TheAentCompany,”ay nagbigay ng isang matino na pagtatasa. Pag-simulate ng isang software firm, natagpuan ng pag-aaral na kahit na ang nangungunang AI, ang Claude ng Anthropic na 3.5 Sonnet, ganap na nakumpleto ang 24% ng mga itinalagang gawain, sa isang average na gastos sa pagpapatakbo na higit sa $ 6 bawat gawain. Ang Google Gemini 2.0 Flash ay namamahala ng 11.4% na pagkumpleto, habang ang GPT-4O ng OpenAi ay nakamit ang 8.6%. Halimbawa, ang mga ahente ay nakipaglaban sa pangunahing pag-unawa sa file o pagtanggal ng mga simpleng on-screen pop-up. Ang konklusyon ay na habang ang mga ahente ng AI ay maaaring makatulong sa mga bahagi ng gawain ng tao, sila ay”malamang na hindi kapalit para sa lahat ng mga gawain sa ngayon.”Nagtatanghal ito ng isang kilalang benchmark ng pagganap na ang anumang bagong tampok na”paggamit ng computer”mula sa Google ay tahasang susukat laban. Si Manus Ai, mula sa Chinese Startup Butterfly Effect, ay inilunsad noong Marso 6, at ipinagbibili bilang isang autonomous agent na may kakayahang magplano at magsagawa ng mga digital na gawain nang walang patuloy na pangangasiwa ng tao, na naiulat na gumagamit ng Ang mga ahente ay mabilis na nakakuha ng pansin mula sa mga regulator, kasama ang Manus AI na nahaharap sa pagbabawal sa mga network ng estado sa Tennessee at Alabama dahil sa mga alalahanin sa seguridad at propaganda. href=”https://www.fierceehealthcare.com/health-tech/google-cloud-sees-multi-agent-ai-systems-next-frontier-advancing-tools-build-and-manage”target=”_ blangko”> google cloud na tumutukoy sa multi-agent ai system bilang”susunod na kumperensya”Noong Abril 2025. Tulad ng potensyal na basahin ng Google ang isang tampok na”paggamit ng computer”para sa AI Studio, ang tagumpay nito ay depende hindi lamang sa mga teknikal na kakayahan at kadalian ng paglawak para sa mga modelo tulad ng Gemma 3 ngunit din sa pagtugon sa pagiging maaasahan at mga pagsasaalang-alang sa kaligtasan na nagiging lalong kilalang tao sa larangan ng AI-driven na operasyon ng computer. Ang modelo ng pagho-host, potensyal na gawing isang mas malawak na platform para sa pagbuo ng mga modelo ng Gemma at hinaharap. Kung ang mga tampok na”Computer Use”na ito ay malawak na mga barko o nananatiling isang panloob na eksperimento ay malamang na depende sa mga patuloy na pagsusuri sa kaligtasan at ang diskarte ng umuusbong na ahente ng Google.