Google har kunngjorde en forhåndsvisning av utvikleren av sin Gemini 2.5-bruk. Verktøyet er nå Tilgjengelig for utviklere gjennom Google AI Studio og Vertex AI .
Denne utgivelsen plasserer Google i direkte konkurranse med lignende AI-agenter fra rivaler som Openai og Anthropic. Teknologien lar AI se hva som er på skjermen og deretter klikke, skrive og navigere på nettsteder for å automatisere komplekse digitale gjøremål.
Flyttingen markerer et betydelig trinn utover enkle chatbots. Den tar sikte på å lage assistenter som aktivt kan fullføre arbeidet på en brukers vegne, og eskalerer løpet for å bygge virkelig autonome AI-agenter.
Hvordan Gemini lærer å klikke, skrive og bla
i kjernen, fungerer Gemini 2.5 Computer-bruksmodellen i det Googles dokumentasjon beskriver som en
I stedet for bare å generere tekst, er AIs mål å produsere handlinger. Prosessen begynner når en utvikler sender en innledende forespørsel, som inkluderer brukerens mål på høyt nivå, et skjermbilde av det nåværende miljøet og en historie med nyere handlinger.
Bygget på avansert visuell forståelse og resonnementfunksjonene til Gemini 2.5 Pro, analyserer modellen disse inngangene for å tolke på skjermselementene. Den genererer deretter et svar, typisk en strukturert kommando kalt en `funksjon_call`, som representerer en spesifikk UI-handling som å klikke på en koordinat eller skrive tekst i et felt.
[innebygd innhold]
Avgjørende utfører modellen ikke disse handlingene. Utviklerens egen klientsiden-kode mottar `funksjon_call` og er ansvarlig for å oversette den til en ekte kommando i målmiljøet, for eksempel en nettleser. Modellen er først og fremst optimalisert for nettlesere, men viser også løfte for mobil brukergrensesnittkontroll, ifølge Google.
Etter at handlingen er utført, fanger klientapplikasjonen et nytt skjermbilde og den nåværende URL-en. Denne nye tilstanden blir deretter sendt tilbake til datamaskinbruksmodellen som en `funksjon_response`, og starter løkken på nytt. Denne iterative prosessen lar agenten vurdere utfallet. Funksjonene inkluderer å navigere til spesifikke nettadresser, bruke søkefeltet, bla, sveve markøren for å avsløre menyer, og til og med utføre drag-and-drop-operasjoner, og gir det et allsidig verktøysett for automatisering av nettbasert arbeidsflyter med GOOMINITY 2TOS
Denne nye modellklassen representerer en strategisk industri-sving fra samtale chatbots til autonome systemer som kan forstå og betjene digitale arbeidsflyter designet for mennesker. Antropic var en tidlig flytter, og introduserte en”datamaskinbruk”-funksjon for sin Claude 3.5 Sonnet-modell tilbake i oktober 2024.
Nylig startet Anthropic en forsiktig, sikkerhetsfokusert pilot for sin”Claude for Chrome”nettleserforlengelse.
Openai har vært spesielt aggressiv. Etter å ha introdusert sin opprinnelige”operatør”-agent i januar 2025, lanserte selskapet den langt kraftigere ChatGPT-agenten i juli 2025. I motsetning til Googles nettlesermodell, driver ChatGPT-agent en”virtuell datamaskin”, og gir den tilgang til en COP-kodeutførelse ved siden av sin nettleser.
Microsoft er også en major-spiller, mål nettleser.
Som en Microsoft VP, Charles Lamanna, fanget kortfattet bransjens endelige mål,”Hvis en person kan bruke appen, kan agenten også.”
Mens Gemini 2.5-datamaskinbruksmodellen er en ny offentlig utgivelse, bygger den på Googles langvarige interne forskning. Versjoner av denne teknologien driver allerede interne verktøy som forskningsprototypeprosjektet Mariner og agentfunksjoner innen AI-modus i søket, og demonstrerer en klar vei fra eksperiment til utviklervendte produkt.
ytelse, sikkerhet og veien foran
Google hevder sin modell overgår ledende alternativer på flere nett-og mobilkontrollbenker , inkludert online-mind2web og androidworld, mens du er latens. Tidlige Access-partnere har gjentatt disse ytelseskravene.
En tester, AI Assistant Poke.com, uttalte:”Gemini 2.5 datamaskinbruk er langt foran konkurransen, og ofte er 50% outpers og bedre enn den neste løsningen, har vi vurdert. Parsingskontekst i komplekse tilfeller, noe som øker ytelsen med opptil 18% på våre hardeste evaler.”
Til tross for den raske innovasjonen, vedvarer spørsmål om den virkelige effektiviteten til disse agentene.
En studie fra Carnegie Mellon University i mai 2025 fra Carnegie Mellon University fant at til og med topp AI-agenter sliter med kompleks forretningsautomatisering. Denne skepsisen deles av noen bransjeledere, med forvirringsadministrerende direktør Aravind Srinivas som oppfordrer til at”alle som sier at agenter vil jobbe i 2025 skal være skeptiske.”
For å adressere potensielle risikoer har Google bygget i betydelige sikkerhetsvekter. Modellen kan Utgave en `Safety_Decision` som krever eksplisitt brukerbekreftelse før du utfører potensielt sensitive handlinger, slik som å gjøre et kjøp eller håndtering av personlig data. Denne human-in-the-loop-tilnærmingen er en kritisk beskyttelse etter hvert som teknologien modnes.