Google lansează utilizarea computerului Gemini 2.5, un agent AI pentru a vă controla browserul

Google are a anunțat un previzualizare a dezvoltatorului al modelului său de utilizare a computerului Gemini 2.5, un nou agent AI care poate controla un browser web pentru a efectua sarcini pentru utilizatori. Instrumentul este acum Disponibil pentru dezvoltatori prin Google AI Studio

How Gemini Learns to Click, Type, and Scroll

At its core, the Gemini 2.5 Computer Use model operates in what Google’s documentation describes as a continuous agentic buclă .

În loc să genereze doar text, obiectivul AI este de a produce acțiuni. Procesul începe atunci când un dezvoltator trimite o solicitare inițială, care include obiectivul la nivel înalt al utilizatorului, o captură de ecran a mediului actual și un istoric al acțiunilor recente.

bazat pe capacitățile avansate de înțelegere vizuală și de raționament ale Gemini 2.5 Pro, modelul analizează aceste contribuții pentru a interpreta elementele de pe ecran. Apoi generează un răspuns, de obicei o comandă structurată numită `function_call`, care reprezintă o acțiune UI specifică, cum ar fi să faci clic pe o coordonată sau să tasteze text într-un câmp.

[conținut încorporat]

crucial, modelul nu execută aceste acțiuni în sine. Codul propriu al dezvoltatorului primește `function_call` și este responsabil de traducerea acestuia într-o comandă reală în mediul țintă, cum ar fi un browser web. Modelul este optimizat în primul rând pentru browsere, dar arată și promisiune pentru controlul UI mobil, potrivit Google.

După ce acțiunea este executată, aplicația client surprinde o nouă captură de ecran și adresa URL actuală. Această nouă stare este apoi trimisă înapoi la modelul de utilizare a computerului ca `function_response`, repornind bucla. Acest proces iterativ permite agentului să Evaluează rezultatul ultimei sale acțiuni și determină următorul pas logic până când sarcina utilizatorului este finalizată.

[Conținut încorporat]

un nou front în AI Agent Wars

Google’s Entry AI Agent Wars. Se încălzește semnificativ un domeniu deja competitiv, escaladând cursa printre giganții tehnologici pentru a dezvolta „AI agentic” capabil. Antropic a fost un mutor timpuriu, introducând o caracteristică „de utilizare a computerului” pentru modelul său Claude 3.5 Sonet în octombrie 2024.

Mai recent, Antropic a început un pilot prudent, orientat către securitate, pentru extinderea browserului „Claude for Chrome”. După ce a introdus agentul inițial de „operator” în ianuarie 2025, compania a lansat agentul ChatGPT mult mai puternic în iulie 2025. Spre deosebire de modelul Google Browser, ChatGPT Agent operează un „computer virtual”, oferindu-i acces la un terminal pentru execuția codului, alături de browser-ul său. În calitate de VP Microsoft, Charles Lamanna, a capturat succint obiectivul final al industriei, „Dacă o persoană poate folosi aplicația, agentul poate. Versiunile acestei tehnologii alimentează deja instrumente interne, cum ar fi prototipul de cercetare, proiectul marinar și caracteristici agentice în modul AI în căutare, demonstrând o cale clară, de la experiment la produsul orientat către dezvoltatori.

performanță, siguranță și drum înainte

Google susține modelul său Outperforms de lider de alternative pe mai multe valori de referință de control web și mobile , inclusiv online-Mind2Web și Androidworld, menținând în același timp latență mai mică. Partenerii de acces timpuriu au făcut ecou în aceste revendicări de performanță.

un tester, asistentul AI Poke.com, a declarat: „Gemini 2.5 Utilizarea computerului este cu mult înaintea competiției, adesea fiind de 50% mai rapidă și mai bună decât următoarele cele mai bune soluții pe care le-am luat în considerare. Analizând contextul în cazuri complexe, creșterea performanței cu până la 18% pe cele mai grele evaluri ale noastre.”

În ciuda inovației rapide, întrebările despre eficacitatea din lumea reală a acestor agenți persistă.

un studiu din mai 2025 de la Universitatea Carnegie Mellon a constatat că chiar și agenții AI de top se luptă cu sarcini complexe de automatizare de afaceri. Acest scepticism este împărtășit de unii lideri ai industriei, CEO-ul perplexității Aravind Srinivas cerând ca „Oricine spune că agenții vor lucra în 2025 ar trebui să fie sceptic. Modelul poate emite o `siguranță_decision` care necesită o confirmare explicită a utilizatorului înainte de a executa acțiuni potențial sensibile, cum ar fi să facă o achiziție sau să predau date personale. Această abordare umană în buclă este o garanție critică pe măsură ce tehnologia se maturizează.

Google lansează utilizarea computerului Gemini 2.5, un agent AI pentru a vă controla browserul

Published by All Things Windows on October 8, 2025

How Gemini Learns to Click, Type, and Scroll

performanță, siguranță și drum înainte

IT Info

Google lansează Modelul de imagine Flash Gemini 2.5: „Nano Banana” Editorul de imagini AI Goes Pro

IT Info

„Deveniți un Dasher” nu funcționează? Încercați aceste corecții simple pe telefon și computer

IT Info

Windows 10 End of Support: Cum se obține gratuit actualizări de securitate extinsă (ESU)

Google lansează utilizarea computerului Gemini 2.5, un agent AI pentru a vă controla browserul

Published by All Things Windows on October 8, 2025

How Gemini Learns to Click, Type, and Scroll

performanță, siguranță și drum înainte

Related Posts

IT Info

Google lansează Modelul de imagine Flash Gemini 2.5: „Nano Banana” Editorul de imagini AI Goes Pro

IT Info

„Deveniți un Dasher” nu funcționează? Încercați aceste corecții simple pe telefon și computer

IT Info

Windows 10 End of Support: Cum se obține gratuit actualizări de securitate extinsă (ESU)