Googlella on ilmoitti kehittäjän esikatselusta Gemini 2.5-tietokoneen käyttömallista, joka voi hallita Web-selainta käyttäjien suorittamiseksi. Työkalu on nyt käytettävissä Google AI-studion kautta . Teknologia antaa AI: lle nähdä, mikä on näytöllä, ja napsauta, kirjoittaa ja navigoida verkkosivustoilla automatisoidaksesi monimutkaisia digitaalisia askareita.
Siirto merkitsee merkittävän askeleen yksinkertaisten chatbotien ulkopuolelle. Sen tavoitteena on luoda avustajia, jotka voivat aktiivisesti suorittaa työn käyttäjän puolesta, lisäämällä kilpailua todella autonomisten AI-agenttien rakentamiseksi.
Kuinka Gemini oppii napsauttamaan, kirjoittamaan ja vierittämään
ytimessä Gemini 2.5-tietokoneen käyttömalli toimii siinä, mitä Googlen dokumentaatio kuvaa .
tekstin tuottamisen sijasta AI: n tavoitteena on tuottaa toimia. Prosessi alkaa, kun kehittäjä lähettää alkuperäisen pyynnön, joka sisältää käyttäjän korkean tason tavoitteen, nykyisen ympäristön kuvakaappauksen ja viimeaikaisten toimien historia.
Gemini 2.5 Pro: n edistyneeseen visuaaliseen ymmärrykseen ja päättelyominaisuuksiin, malli analysoi nämä panokset tulkitsemaan näyttöruuvien elementtejä. Sitten se tuottaa vastauksen, tyypillisesti jäsennelty komento, nimeltään `function_call`, joka edustaa tiettyä käyttöliittymän toimintaa, kuten napsauttamalla koordinaatti-tai kirjoitustekstiä kenttään.
[upotettu sisältö]
Tärkeintä, malli ei suorita näitä toimia itse. Kehittäjän oma asiakaspuolen koodi vastaanottaa `function_call` ja vastaa sen kääntämisestä todelliseksi komentoksi kohdeympäristössä, kuten verkkoselain. Malli on ensisijaisesti optimoitu selaimille, mutta näyttää myös lupauksen mobiilikäytönohjaimelle, Googlen mukaan. Tämä uusi tila lähetetään sitten takaisin tietokoneen käyttömalliin”funktio_response”: na käynnistämällä silmukka uudelleen. Tämän iteratiivisen prosessin avulla agentti voi Arvioi viimeisen toiminnan lopputulos ja määritä seuraava looginen askel , kunnes käyttäjän tehtävä on täydellinen. Sen ominaisuuksiin sisältyy seligointi tietyille URL-osoitteille, käyttämällä hakupalkkia, vierittämistä, kiinnittämistä valikoiden paljastamiseksi ja jopa veto-ja pudotustoimintojen suorittamiseksi, antamalla sille monipuolisen työkalukit verkkopohjaisten työnkulkujen automatisoimiseksi.
[upotettu sisältö]
Uusi etu AI-agenttien sodassa Lämmittää jo kilpailukykyisen kentän, joka lisää kisaa teknisten jättiläisten keskuudessa kykenevän “agentisen AI: n” kehittämiseksi.”Antropinen oli varhainen liikkuja, joka esitteli Claude 3.5: n Sonnet-malliinsa “tietokoneen käyttöä”-ominaisuuden lokakuussa 2024.
Viime aikoina antropia aloitti varovaisen, tietoturvakeskeisen lentäjän”Claude for Chrome”-selaimen jatko.
Openai on ollut erityisen aggressiivinen. Alkuperäisen “operaattori”-agentinsa tammikuussa 2025 yritys käynnisti paljon tehokkaamman chatgpt-agentin heinäkuussa 2025. Toisin kuin Googlen vain selainmalli, ChatgPT-agentti käyttää “virtuaalista tietokonetta”, joka antaa sille pääsyn päätelaitteelle koodin suorittamiseen selaimensa rinnalla. Yhtenä Microsoft-VP: nä Charles Lamanna vangitsi tiiviisti alan lopullisen tavoitteen: “Jos henkilö voi käyttää sovellusta, myös agentti voi.”
Gemini 2.5-tietokoneen käyttömalli on uusi julkinen julkaisu, se perustuu Googlen pitkäaikaiseen sisäiseen tutkimukseen. Tämän tekniikan versiot saavat jo sisäisiä työkaluja, kuten tutkimusprototyyppiprojektin merimiehet ja agentiset ominaisuudet AI-tilassa haussa, osoittaen selkeän polun kokeilusta kehittäjälle suunnattuun tuotteeseen. href=”https://blog.google/technology/google-deepmind/gemini-computer-use-model/”target=”_ tyhjä”> parannukset johtavat vaihtoehdot useissa verkko-ja mobiilivalvontavertailuarvoissa , mukaan lukien online-Mind2Web ja Androidworld, ylläpitäen samalla alhaisempaa latenssi. Varhaiset pääsykumppanit ovat touttaneet nämä suorituskykyvaatimukset.
yksi testaaja, AI-avustaja Poke.com, totesi: “Gemini 2.5-tietokoneen käyttö on kaukana kilpailun edessä, usein 50% nopeampi ja parempi kuin seuraavat parhaat ratkaisut, joita harkitsemme.”Jäsentäminen monimutkaisissa tapauksissa suorituskyvyn lisääminen jopa 18 prosentilla vaikeimmista evyseistämme.”
Nopeasta innovaatiosta huolimatta näiden tekijöiden reaalimaailman tehokkuutta koskevat kysymykset jatkuvat. Jotkut alan johtajat jakavat tämän skeptisyyden, ja hämmentyneen toimitusjohtaja Aravind Srinivas kehottaa sitä, että “kuka tahansa, joka sanoo, että edustajat työskentelevät vuonna 2025, tulisi olla skeptinen.”Malli voi Anna `Safety_Decision`, joka vaatii käyttäjän varmennuksen ennen mahdollisten arkaluontoisten toimien suorittamista, esimerkiksi tekemällä ostamalla tai käsittelevää henkilökohtaisia tietoja. Tämä ihmisen in-the-silmukan lähestymistapa on kriittinen suojaus tekniikan kypsyessä.