Google hat kündigte eine Entwicklervorschau an. Das Tool ist jetzt verfügbar für Entwickler über Google AI Studio und vertex ai . Mit der Technologie können die KI sehen, was sich auf dem Bildschirm befindet, und dann auf Websites auf dem Bildschirm zu klicken, einzutippen und zu navigieren, um komplexe digitale Aufgaben zu automatisieren. Ziel ist es, Assistenten zu erstellen, die im Namen eines Benutzers aktiv die Arbeit abschließen können, und das Rennen um wirklich autonome AI-Agenten zu eskalieren. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty2MDO5MJC=-1; Base64, PHN2ZyB2AWV3QM94PSIWIDAGMTAWMCA0MD Qiihdpzhropsixmdawiibozwlnahq9ijqwncigg1SBnm9imH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2zz4=”>

Wie Gemini lernt, im Kern zu klicken, einzugeben und zu scrollen. Schleife .

Anstatt nur Text zu generieren, ist das Ziel der KI, Aktionen zu erstellen. Der Prozess beginnt, wenn ein Entwickler eine erste Anfrage sendet, die das hochrangige Ziel des Benutzers, einen Screenshot der aktuellen Umgebung und eine Geschichte der jüngsten Aktionen enthält. Anschließend generiert es eine Antwort, typischerweise einen strukturierten Befehl, der als”function_call”bezeichnet wird und eine bestimmte UI-Aktion darstellt, wie das Klicken auf einen Koordinaten oder ein Eingeben von Text in ein Feld. Der clientseitige Code des Entwicklers empfängt den `function_call` und ist dafür verantwortlich, ihn in einen realen Befehl in der Zielumgebung wie einen Webbrowser zu übersetzen. Das Modell ist in erster Linie für Browser optimiert, zeigt laut Google jedoch auch vielversprechend für die mobile UI-Steuerung. Dieser neue Status wird dann an das Computer-Use-Modell als `function_response` zurückgesandt, wodurch die Schleife neu gestartet wird. Dieser iterative Prozess ermöglicht es dem Agenten zu Beurteilung des Ergebnisses seiner letzten Aktion und bestimmen Sie das nächste logische Schritt. Zu den Funktionen zählen das Navigieren zu bestimmten URLs, die Verwendung der Suchleiste, das Scrollen, das Überschwingen des Cursors, um Menüs auszuführen, und sogar Drag-and-Drop-Operationen, um ein vielseitiges Toolkit für die Automatisierung von webbasierten Workflows zu automatisieren. Erhitzt ein bereits wettbewerbsfähiges Feld und eskaliert das Rennen unter den Tech-Giganten, um fähige „Agentic AI“ zu entwickeln. Anthropic war ein früher Mover, der im Oktober 2024 eine Funktion „Computer-Use“ für sein Claude 3.5-Sonnet-Modell einführte. Nachdem das Unternehmen im Januar 2025 seinen ersten „Operator“-Ag Agent eingeführt hatte, startete er im Juli 2025 den weitaus leistungsstärkeren Chatgpt-Agenten. Im Gegensatz zum Browser-Nur-Model von Google betreibt ChatGPT einen”virtuellen Computer”. Außerdem hat der Zugriff auf ein Terminal zur Codeausführung neben dem Browser. Als ein Microsoft VP, Charles Lamanna, hat das ultimative Ziel der Branche kurz und bündig: „Wenn eine Person die App verwenden kann, kann der Agent auch. Versionen dieser Technologie betreiben bereits interne Tools wie die Research Prototype Project Mariner and Agentic-Merkmale im KI-Modus bei der Suche und demonstrieren einen klaren Pfad vom Experiment zu Entwicklern. href=”https://blog.google/technology/google-tepmind/gemini-computer-use-model/”target=”_ leer”> übertrifft die führenden Alternativen zu mehreren Web-und mobilen Kontroll-Benchmarks, einschließlich Online-Mind2web und AndroidWorld, während die untere Late unterbrochen wird. Frühe Zugriffspartner haben diese Leistungsansprüche wiederholt. Kontext in komplexen Fällen, die die Leistung um bis zu 18% für unsere schwierigsten Evals erhöht.”

Trotz der schnellen Innovation bestehen Fragen zur realen Wirksamkeit dieser Agenten bestehen. Diese Skepsis wird von einigen Branchenführern geteilt, wobei der Verwirrungs-CEO Aravind Srinivas darauf drängt, dass „jeder, dass Agenten im Jahr 2025 arbeiten werden, skeptisch sein sollten. Das Modell kann Ausgeben eines”Safety_Decision”, das explizite Benutzerbestätigung erfordert, Vor dem Ausführen potenzieller Maßnahmen wie ein Kauf oder Handeln personenbezogene Daten. Dieser Ansatz des Menschen in der Schleife ist ein kritischer Schutz, wenn die Technologie reift.

Categories: IT Info