Google a annoncé un aperçu pour les développeurs de son modèle Gemini 2.5 Computer Use, un nouvel agent d’IA capable de contrôler un navigateur Web pour effectuer des tâches pour les utilisateurs. L’outil est désormais disponible pour les développeurs via Google AI Studio et Vertex AI.

Cette version place Google en concurrence directe avec des agents d’IA similaires de concurrents comme OpenAI et Anthropic. La technologie permet à l’IA de voir ce qui est à l’écran, puis de cliquer, de taper et de naviguer sur des sites Web pour automatiser des tâches numériques complexes.

Cette décision marque une étape importante au-delà des simples chatbots. Son objectif est de créer des assistants capables d’effectuer activement un travail au nom d’un utilisateur, intensifiant ainsi la course à la création d’agents d’IA véritablement autonomes.

Comment Gemini apprend à cliquer, taper et faire défiler

À la base, le modèle Gemini 2.5 d’utilisation de l’ordinateur fonctionne selon ce que la documentation de Google décrit comme un agentique continu. boucle.

Au lieu de simplement générer du texte, le but de l’IA est de produire des actions. Le processus commence lorsqu’un développeur envoie une demande initiale, qui comprend l’objectif général de l’utilisateur, une capture d’écran de l’environnement actuel et un historique des actions récentes.

Construit sur les capacités avancées de compréhension visuelle et de raisonnement de Gemini 2.5 Pro, le modèle analyse ces entrées pour interpréter les éléments à l’écran. Il génère ensuite une réponse, généralement une commande structurée appelée « function_call », qui représente une action spécifique de l’interface utilisateur, comme cliquer sur une coordonnée ou saisir du texte dans un champ.

[contenu intégré]

Surtout, le modèle n’exécute pas ces actions lui-même. Le propre code côté client du développeur reçoit le « function_call » et est chargé de le traduire en une commande réelle dans l’environnement cible, tel qu’un navigateur Web. Le modèle est principalement optimisé pour les navigateurs, mais s’avère également prometteur pour le contrôle de l’interface utilisateur mobile, selon Google.

Une fois l’action exécutée, l’application client capture une nouvelle capture d’écran et l’URL actuelle. Ce nouvel état est ensuite renvoyé au modèle Computer Use en tant que « function_response », redémarrant la boucle. Ce processus itératif permet à l’agent d’évaluer le résultat de sa dernière action et de déterminer la prochaine étape logique jusqu’à ce que la tâche de l’utilisateur soit terminée.

Le modèle prend en charge une gamme d’actions au-delà des simples clics et saisies. Ses fonctionnalités incluent la navigation vers des URL spécifiques, l’utilisation de la barre de recherche, le défilement, le survol du curseur pour afficher les menus et même l’exécution d’opérations de glisser-déposer, ce qui lui confère une boîte à outils polyvalente pour automatiser les flux de travail basés sur le Web.

[contenu intégré]

Un nouveau front dans la guerre des agents IA

L’entrée de Google avec Gemini 2.5 Utilisation de l’ordinateur réchauffe considérablement un domaine déjà compétitif, intensifiant la course entre les géants de la technologie pour développer une « IA agentique » performante.

Cette nouvelle classe de modèles représente un pivot stratégique de l’industrie, des chatbots conversationnels aux systèmes autonomes capables de comprendre et d’exploiter des flux de travail numériques conçus pour les humains.

Le lancement est une réponse directe aux mouvements de principaux concurrents. Anthropic a été l’un des premiers à avoir introduit une fonctionnalité « Utilisation de l’ordinateur » pour son modèle Claude 3.5 Sonnet en octobre 2024.

Plus récemment, Anthropic a lancé un projet pilote prudent et axé sur la sécurité pour son extension de navigateur « Claude pour Chrome ».

OpenAI a été particulièrement agressif. Après avoir présenté son premier agent « Opérateur » en janvier 2025, la société a lancé l’agent ChatGPT, bien plus puissant, en juillet 2025. Contrairement au modèle de navigateur uniquement de Google, l’agent ChatGPT exploite un « ordinateur virtuel », lui donnant accès à un terminal pour l’exécution de code aux côtés de son navigateur.

Microsoft est également un acteur majeur, ciblant l’automatisation d’entreprise avec une fonctionnalité similaire dans son Copilot Studio. Comme l’un des vice-présidents de Microsoft, Charles Lamanna, a résumé succinctement l’objectif ultime de l’industrie : « Si une personne peut utiliser l’application, l’agent peut le faire aussi. »

Bien que le modèle d’utilisation de l’ordinateur Gemini 2.5 soit une nouvelle version publique, il s’appuie sur les recherches internes de longue date de Google. Des versions de cette technologie alimentent déjà des outils internes tels que le prototype de recherche Project Mariner et les fonctionnalités agents du mode IA dans la recherche, démontrant un cheminement clair entre l’expérimentation et le produit destiné aux développeurs.

Performances, sécurité et avenir

Google revendique son modèle surclasse les principales alternatives sur plusieurs tests de contrôle Web et mobile, notamment Online-Mind2Web et AndroidWorld, tout en maintenant une latence plus faible. Les partenaires d’accès anticipé ont fait écho à ces affirmations en matière de performances.

Un testeur, l’assistant IA Poke.com, a déclaré :”Gemini 2.5 Computer Use est bien en avance sur la concurrence, étant souvent 50 % plus rapide et meilleur que les meilleures solutions que nous avons envisagées.”

Un autre, le service d’automatisation Autotab, a rapporté que”Gemini 2.5 Computer Use a surpassé les autres modèles en termes d’analyse fiable du contexte. dans les cas complexes, cela permet d’augmenter les performances jusqu’à 18 % lors de nos évaluations les plus difficiles.”

Malgré l’innovation rapide, des questions sur l’efficacité réelle de ces agents persistent.

Une étude de mai 2025 de l’Université Carnegie Mellon a révélé que même les meilleurs agents d’IA ont du mal à gérer des tâches complexes d’automatisation d’entreprise. Ce scepticisme est partagé par certains leaders du secteur, le PDG de Perplexity, Aravind Srinivas, insistant sur le fait que « quiconque affirme que les agents travailleront en 2025 devrait être sceptique. »

Pour faire face aux risques potentiels, Google a mis en place d’importantes mesures de sécurité. Le modèle peut émettre une `safety_decision` qui nécessite une confirmation explicite de l’utilisateur avant d’exécuter des actions potentiellement sensibles, telles que réaliser un achat ou traiter des données personnelles. Cette approche humaine constitue une protection essentielle à mesure que la technologie évolue.

Categories: IT Info