Google heeft een preview voor ontwikkelaars aangekondigd van zijn Gemini 2.5 Computer Use-model, een nieuwe AI-agent die een webbrowser kan besturen om taken voor gebruikers uit te voeren. De tool is nu beschikbaar voor ontwikkelaars via Google AI Studio en Vertex AI.
Deze release plaatst Google in directe concurrentie met soortgelijke AI-agenten van rivalen als OpenAI en Anthropic. Dankzij de technologie kan de AI zien wat er op het scherm staat en vervolgens op websites klikken, typen en navigeren om complexe digitale klusjes te automatiseren.
Deze stap markeert een belangrijke stap verder dan eenvoudige chatbots. Het doel is om assistenten te creëren die actief het werk namens een gebruiker kunnen voltooien, waardoor de race om echt autonome AI-agenten te bouwen escaleert.
Hoe Gemini leert klikken, typen en scrollen
In de kern werkt het Gemini 2.5 Computer Use-model in wat de documentatie van Google beschrijft als een continue agent loop.
In plaats van alleen maar tekst te genereren, is het doel van de AI om acties te produceren. Het proces begint wanneer een ontwikkelaar een eerste verzoek verzendt, dat het doel op hoog niveau van de gebruiker, een screenshot van de huidige omgeving en een geschiedenis van recente acties bevat.
Gebouwd op het geavanceerde visuele begrip en de redeneermogelijkheden van Gemini 2.5 Pro, analyseert het model deze invoer om de elementen op het scherm te interpreteren. Vervolgens genereert het een antwoord, meestal een gestructureerd commando genaamd’function_call’, dat een specifieke UI-actie vertegenwoordigt, zoals klikken op een coördinaat of tekst in een veld typen.
[embedded content]
Cruciaal is dat het model deze acties niet zelf uitvoert. De eigen client-side code van de ontwikkelaar ontvangt de `function_call` en is verantwoordelijk voor het vertalen ervan naar een echte opdracht in de doelomgeving, zoals een webbrowser. Het model is voornamelijk geoptimaliseerd voor browsers, maar is volgens Google ook veelbelovend voor mobiele UI-controle.
Nadat de actie is uitgevoerd, legt de clientapplicatie een nieuwe schermafbeelding en de huidige URL vast. Deze nieuwe status wordt vervolgens teruggestuurd naar het Computer Use-model als een `function_response`, waardoor de lus opnieuw wordt gestart. Met dit iteratieve proces kan de agent de uitkomst van zijn laatste actie beoordelen en de volgende logische stap bepalen totdat de taak van de gebruiker is voltooid.
Het model ondersteunt een reeks acties die verder gaan dan alleen klikken en typen. De mogelijkheden omvatten het navigeren naar specifieke URL’s, het gebruik van de zoekbalk, scrollen, het bewegen van de cursor om menu’s weer te geven en zelfs het uitvoeren van slepen-en-neerzetten, waardoor het een veelzijdige toolkit krijgt voor het automatiseren van webgebaseerde workflows.
[embedded content]
Een nieuw front in de AI Agent Wars
Google’s intrede met Gemini 2.5 Computergebruik aanzienlijk zet een toch al competitief veld op scherp, waardoor de race tussen technologiegiganten om capabele ‘agentische AI’ te ontwikkelen escaleert.
Deze nieuwe klasse van modellen vertegenwoordigt een strategische spil in de sector, van conversatiechatbots naar autonome systemen die digitale workflows die voor mensen zijn ontworpen, kunnen begrijpen en bedienen.
De lancering is een directe reactie op stappen van belangrijke rivalen. Anthropic was een pionier en introduceerde in oktober 2024 een’Computergebruik’-functie voor zijn Claude 3.5 Sonnet-model.
Meer recentelijk begon Anthropic een voorzichtige, op beveiliging gerichte pilot voor zijn’Claude voor Chrome’-browserextensie.
OpenAI is bijzonder agressief geweest. Na de introductie van de eerste’Operator’-agent in januari 2025, lanceerde het bedrijf in juli 2025 de veel krachtigere ChatGPT Agent. In tegenstelling tot het browser-only-model van Google, bestuurt ChatGPT Agent een’virtuele computer’, waardoor deze naast de browser toegang heeft tot een terminal voor het uitvoeren van code.
Microsoft is ook een belangrijke speler en richt zich op bedrijfsautomatisering met een vergelijkbare functie in Copilot Studio. Zoals een vice-president van Microsoft, Charles Lamanna, het uiteindelijke doel van de branche kort en bondig verwoordde: “Als een persoon de app kan gebruiken, kan de agent dat ook.”
Hoewel het Gemini 2.5 Computer Use-model een nieuwe publieke release is, bouwt het voort op het langlopende interne onderzoek van Google. Versies van deze technologie zijn al de drijvende kracht achter interne tools zoals het onderzoeksprototype Project Mariner en agentische functies binnen de AI-modus in Zoeken, waarmee een duidelijk pad wordt gedemonstreerd van experiment naar product voor ontwikkelaars.
Prestaties, veiligheid en de weg voorwaarts
Google claimt zijn model presteert beter dan toonaangevende alternatieven op verschillende web-en mobiele controlebenchmarks, waaronder Online-Mind2Web en AndroidWorld, met behoud van een lagere latentie. Partners voor vroege toegang hebben deze prestatieclaims herhaald.
Eén tester, de AI-assistent Poke.com, verklaarde:”Gemini 2.5 Computer Use loopt ver voor op de concurrentie en is vaak 50% sneller en beter dan de volgende beste oplossingen die we hebben overwogen.”
Een andere, de automatiseringsservice Autotab, meldde dat”Gemini 2.5 Computer Use betrouwbaar beter presteerde dan andere modellen het ontleden van de context in complexe gevallen, waardoor de prestaties met wel 18% toenemen bij onze moeilijkste evaluaties.”
Ondanks de snelle innovatie blijven er vragen bestaan over de effectiviteit van deze agenten in de echte wereld.
Uit een onderzoek uit mei 2025 van de Carnegie Mellon University bleek dat zelfs top AI-agenten worstelen met complexe bedrijfsautomatiseringstaken. Dit scepticisme wordt gedeeld door sommige marktleiders, waarbij Aravind Srinivas, CEO van Perplexity, erop aandringt dat “iedereen die zegt dat agenten in 2025 zullen werken, sceptisch moet zijn.”
Om potentiële risico’s aan te pakken, heeft Google aanzienlijke veiligheidsvoorzieningen ingebouwd. Het model kan een `safety_decision` uitvaardigen waarvoor expliciete gebruikersbevestiging nodig is voordat potentieel gevoelige acties worden uitgevoerd, zoals het doen van een aankoop of het verwerken van persoonlijke gegevens. Deze’human-in-the-loop’-benadering is een cruciale waarborg naarmate de technologie volwassener wordt.