Google ma ogłosił podgląd programisty swojego modelu komputerowego komputera Gemini 2.5. Narzędzie jest teraz Dostępne dla programistów za pośrednictwem Google ai Studio
Proces rozpoczyna się, gdy programista wysyła początkowe żądanie, które obejmuje cel wysokiego poziomu użytkownika, zrzut ekranu obecnego środowiska oraz historię najnowszych działań.
Zbudowane na podstawie zaawansowanych wizualnych zrozumienia i rozumowania Gemini 2.5 Pro, model analizuje te wejścia do interpretacji elementów. Następnie generuje odpowiedź, zazwyczaj ustrukturyzowane polecenie zwane `function_call`, które reprezentuje konkretne działanie interfejsu użytkownika, takie jak klikanie w współrzędnej lub pisaniu tekstu w polu.
[zawartość osadzona]
Najważniejsze, model nie wykonuje tych akcji. Własny kod po stronie klienta otrzymuje „funkcję_call” i jest odpowiedzialny za przetłumaczenie go na prawdziwe polecenie w środowisku docelowym, takim jak przeglądarka internetowa. Model jest zoptymalizowany przede wszystkim pod kątem przeglądarek, ale również pokazuje obietnicę mobilnej kontroli interfejsu użytkownika, według Google.
Po wykonaniu akcji aplikacja kliencka przechwytuje nowy zrzut ekranu i bieżący adres URL. Ten nowy stan jest następnie wysyłany z powrotem do modelu używania komputera jako „funkcja_response`, ponownie uruchamiając pętlę. Ten iteracyjny proces pozwala agentowi ocena wyniku jego ostatniego akcji i określenie kolejnego logicznego kroku Dopóki zadanie użytkownika nie zostanie zakończone. Jego możliwości obejmują nawigację do określonych adresów URL, korzystanie z paska wyszukiwania, przewijanie, unoszenie kursora w celu ujawnienia menu, a nawet wykonywanie operacji przeciągania i upuszczania, nadając mu wszechstronny zestaw narzędzi do automatyzacji przepływów pracy opartych na sieci.
[Wbudowana treść]