Google ma ogłosił podgląd programisty swojego modelu komputerowego komputera Gemini 2.5. Narzędzie jest teraz Dostępne dla programistów za pośrednictwem Google ai Studio

Jak Gemini uczy się kliknąć, wpisać i przewijać

U podstaw, model używania komputera Gemini 2.5 działa w tym, co dokumentacja Google opisuje cel=„href=„ https://ai.google.dev/gemini-api/docs/computer-użyjam ” Pętla .

Proces rozpoczyna się, gdy programista wysyła początkowe żądanie, które obejmuje cel wysokiego poziomu użytkownika, zrzut ekranu obecnego środowiska oraz historię najnowszych działań.

Zbudowane na podstawie zaawansowanych wizualnych zrozumienia i rozumowania Gemini 2.5 Pro, model analizuje te wejścia do interpretacji elementów. Następnie generuje odpowiedź, zazwyczaj ustrukturyzowane polecenie zwane `function_call`, które reprezentuje konkretne działanie interfejsu użytkownika, takie jak klikanie w współrzędnej lub pisaniu tekstu w polu.

[zawartość osadzona]

Najważniejsze, model nie wykonuje tych akcji. Własny kod po stronie klienta otrzymuje „funkcję_call” i jest odpowiedzialny za przetłumaczenie go na prawdziwe polecenie w środowisku docelowym, takim jak przeglądarka internetowa. Model jest zoptymalizowany przede wszystkim pod kątem przeglądarek, ale również pokazuje obietnicę mobilnej kontroli interfejsu użytkownika, według Google.

Po wykonaniu akcji aplikacja kliencka przechwytuje nowy zrzut ekranu i bieżący adres URL. Ten nowy stan jest następnie wysyłany z powrotem do modelu używania komputera jako „funkcja_response`, ponownie uruchamiając pętlę. Ten iteracyjny proces pozwala agentowi ocena wyniku jego ostatniego akcji i określenie kolejnego logicznego kroku Dopóki zadanie użytkownika nie zostanie zakończone. Jego możliwości obejmują nawigację do określonych adresów URL, korzystanie z paska wyszukiwania, przewijanie, unoszenie kursora w celu ujawnienia menu, a nawet wykonywanie operacji przeciągania i upuszczania, nadając mu wszechstronny zestaw narzędzi do automatyzacji przepływów pracy opartych na sieci.

[Wbudowana treść]

Nowy front w AI Agent Wars

Google z GEMINI 2,5 Znacząco podgrzewa i tak już konkurencyjną dziedzinę, eskalując wyścig wśród gigantów technologicznych w celu opracowania zdolnych „Agentic AI.”

Ta nowa klasa modelu stanowi strategiczną przedział branży, od respondencyjnych chatbotów po systemy autonomiczne, które potrafią zrozumieć i obsługiwać cyfrowe przepływy pracy zaprojektowane dla ludzi.

reakcja na ruchy od kluczowych rywali. Antropic był wczesnym wnioskodawcą, wprowadzającym funkcję „używania komputera” dla swojego modelu sonetowego Claude 3.5 w październiku 2024 r.

Niedawno antropic rozpoczął ostrożny, skoncentrowany na bezpieczeństwie pilot dla swojego „Claude for Chrome” rozszerzenia przeglądarki.

Openai było szczególnie agresywne. Po wprowadzeniu pierwotnego agenta „operatora” w styczniu 2025 r. Firma uruchomiła znacznie mocniejszy agent Chatgpt w lipcu 2025 r. W przeciwieństwie do modelu wyłącznie w przeglądarce Google, Agent Chatgpt obsługuje „komputer wirtualny”, dając mu dostęp do terminalu do wykonania kodu wraz z przeglądarką.

Microsoft jest również graczem głównym, kierującym przedsięwzięciem, z podobną funkcją studiowania COPILOT. Jako jeden wiceprezes Microsoft, Charles Lamanna, zwięźle uchwycił ostateczny cel w branży: „Jeśli dana osoba może korzystać z aplikacji, agent też może.”

Podczas gdy model użytkowania komputerowego Gemini 2.5 jest nową publiczną wersją, opiera się na długotrwałym badaniach wewnętrznych Google. Wersje tej technologii zasilają już narzędzia wewnętrzne, takie jak prototypowy prototypowy projekt Project Mariner i cechy agencyjne w trybie AI w wyszukiwaniu, pokazując wyraźną ścieżkę od eksperymentu do produktu skierowanego do programistów.

Wydajność, bezpieczeństwo i droga

Google twierdzi, że jego model przewyższa wiodące alternatywy w kilku testach porównawczych sterowania internetowego i mobilnego , w tym online-mind2web i AndroidWorld, a jednocześnie utrzymuje tańkę. Partnerzy wczesnego dostępu odzwierciedlali te roszczenia dotyczące wydajności.

Jeden tester, asystent AI Poke.com, stwierdził: „Używanie komputera Gemini 2.5 jest daleko przed konkurencją, często jest 50% szybciej i lepsze niż kolejne najlepsze rozwiązania, które rozważaliśmy.”

Autotab. Parsowanie kontekstu w złożonych przypadkach, zwiększanie wydajności nawet o 18% w naszych najtrudniejszych ewolucjach. “

Pomimo szybkich innowacji, pytania o rzeczywistą skuteczność tych agentów utrzymują się.

Badanie z maja 2025 r. Na Uniwersytecie Carnegie Mellon stwierdzono, że nawet najlepsi agenci AI walczą z złożonymi taskami z automatyzacji biznesowej. Ten sceptycyzm podziela niektórzy liderzy branży, a dyrektor generalny zakłopotania, Aravind Srinivas, wzywając, że „każdy, kto mówi, że agenci będą działać w 2025 r., Powinien być sceptyczny.”

Aby rozwiązać potencjalne ryzyko, Google zbudował znaczące strażniki bezpieczeństwa. Model może Wydać „bezpieczeństwo_decision”, który wymaga jawnego potwierdzenia użytkownika Przed wykonaniem potencjalnych działań, takich jak wykonywanie zakupu lub przekazanie danych osobowych. To podejście ludzkie w pętli jest krytycznym zabezpieczeniem w miarę dojrzewania technologii.

Categories: IT Info