Ang Google ay may inihayag ng isang developer preview ng gemini 2.5 na paggamit ng computer, isang bagong ahente ng AI na maaaring makontrol ang isang web browser upang maisagawa ang mga take para sa mga gumagamit. Ang tool ngayon ay magagamit sa mga developer sa pamamagitan ng google ai studio at vertex ai . Pinapayagan ng teknolohiya ang AI na makita kung ano ang nasa screen at pagkatapos ay mag-click, mag-type, at mag-navigate ng mga website upang awtomatiko ang mga kumplikadong digital na gawain.
Ang paglipat ay nagmamarka ng isang makabuluhang hakbang na lampas sa mga simpleng chatbots. Nilalayon nitong lumikha ng mga katulong na maaaring aktibong makumpleto ang trabaho sa ngalan ng isang gumagamit, na tumataas ang lahi upang makabuo ng tunay na awtonomikong ahente ng AI. src=”data: imahe/svg+xml; nitro-empty-id=mty2mdo5mjc=-1; base64, phn2zyb2awv3qm94psiwidagmtawmca0md Qiihdpzhropsixmdawiibozwlnahq9ijqwncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Paano natutunan ni Gemini na mag-click, mag-type, at mag-scroll Loop . Nagsisimula ang proseso kapag ang isang developer ay nagpapadala ng isang paunang kahilingan, na kinabibilangan ng mataas na antas ng layunin ng gumagamit, isang screenshot ng kasalukuyang kapaligiran, at isang kasaysayan ng mga kamakailang aksyon. Pagkatapos ay bumubuo ito ng isang tugon, karaniwang isang nakabalangkas na utos na tinatawag na isang `function_call`, na kumakatawan sa isang tiyak na pagkilos ng UI tulad ng pag-click sa isang coordinate o pag-type ng teksto sa isang patlang. Ang sariling code ng kliyente ng developer ay tumatanggap ng `function_call` at responsable para sa pagsalin nito sa isang tunay na utos sa target na kapaligiran, tulad ng isang web browser. Pangunahing na-optimize ang modelo para sa mga browser ngunit nagpapakita rin ng pangako para sa mobile UI control, ayon sa Google. Ang bagong estado na ito ay pagkatapos ay ibabalik sa modelo ng paggamit ng computer bilang isang `function_response`, pag-restart ng loop. Ang proseso ng iterative na ito ay nagbibigay-daan sa ahente na masuri ang kinalabasan ng huling pagkilos nito at matukoy ang susunod na lohikal na hakbang Hanggang sa kumpleto ang gawain ng gumagamit. Ang mga kakayahan nito ay kasama ang pag-navigate sa mga tiyak na URL, gamit ang search bar, pag-scroll, pag-hover ng cursor upang ipakita ang mga menu, at kahit na gumaganap ng mga drag-and-drop na operasyon, binibigyan ito ng isang maraming nalalaman toolkit para sa pag-automate ng mga workflows na nakabase sa web. Ang makabuluhang pag-init ng isang naka-mapagkumpitensyang larangan, na tumataas ang lahi sa mga higanteng tech upang makabuo ng may kakayahang”ahente ng AI.”Ang Anthropic ay isang maagang mover, na nagpapakilala ng isang tampok na”paggamit ng computer”para sa Claude 3.5 Sonnet model pabalik noong Oktubre 2024. Matapos ipakilala ang paunang ahente ng”operator”noong Enero 2025, inilunsad ng kumpanya ang mas malakas na ahente ng ChATGPT noong Hulyo 2025. Hindi tulad ng modelo ng browser lamang ng Google, ang ChATGPT Agent ay nagpapatakbo ng isang”virtual na computer,”na nagbibigay ng pag-access sa isang terminal para sa pagpapatupad ng code sa tabi ng browser nito. Bilang isang Microsoft VP, si Charles Lamanna, na matagumpay na nakuha ang pangwakas na layunin ng industriya,”kung ang isang tao ay maaaring gumamit ng app, maaari rin ang ahente.”Ang mga bersyon ng teknolohiyang ito ay pinapagana ang mga panloob na tool tulad ng proyekto ng prototype na marino at mga tampok ng ahente sa loob ng mode ng AI sa paghahanap, na nagpapakita ng isang malinaw na landas mula sa eksperimento hanggang sa produkto na nakaharap sa developer. href=”https://blog.google/technology/google-deepmind/gemini-computer-use-model/”target=”_ blangko”> outperform na nangungunang mga kahalili sa maraming mga benchmark ng web at mobile control , kasama ang online-mind2web at androidworld, habang pinapanatili ang mas mababang latency. Ang mga kasosyo sa maagang pag-access ay nagbigkas ng mga paghahabol sa pagganap na ito. Ang konteksto ng pag-parse sa mga kumplikadong kaso, ang pagtaas ng pagganap ng hanggang sa 18% sa aming pinakamahirap na mga evals.”
Ang pag-aalinlangan na ito ay ibinahagi ng ilang mga pinuno ng industriya, na may Peclexity CEO Aravind Srinivas na hinihimok na”ang sinumang nagsasabing ang mga ahente ay gagana sa 2025 ay dapat na nag-aalinlangan.”Ang modelo ay maaaring mag-isyu ng isang `safety_decision` na nangangailangan ng tahasang kumpirmasyon ng gumagamit Bago ang pagpapatupad ng mga potensyal na sensitibong aksyon, tulad ng paggawa ng isang pagbili o paghawak ng personal na data. Ang diskarte sa tao-sa-loop na ito ay isang kritikal na pangangalaga habang tumatanda ang teknolohiya.