Google are a anunțat un previzualizare a dezvoltatorului al modelului său de utilizare a computerului Gemini 2.5, un nou agent AI care poate controla un browser web pentru a efectua sarcini pentru utilizatori. Instrumentul este acum Disponibil pentru dezvoltatori prin Google AI Studio continuous agentic buclă .
În loc să genereze doar text, obiectivul AI este de a produce acțiuni. Procesul începe atunci când un dezvoltator trimite o solicitare inițială, care include obiectivul la nivel înalt al utilizatorului, o captură de ecran a mediului actual și un istoric al acțiunilor recente.
bazat pe capacitățile avansate de înțelegere vizuală și de raționament ale Gemini 2.5 Pro, modelul analizează aceste contribuții pentru a interpreta elementele de pe ecran. Apoi generează un răspuns, de obicei o comandă structurată numită `function_call`, care reprezintă o acțiune UI specifică, cum ar fi să faci clic pe o coordonată sau să tasteze text într-un câmp.
[conținut încorporat]
crucial, modelul nu execută aceste acțiuni în sine. Codul propriu al dezvoltatorului primește `function_call` și este responsabil de traducerea acestuia într-o comandă reală în mediul țintă, cum ar fi un browser web. Modelul este optimizat în primul rând pentru browsere, dar arată și promisiune pentru controlul UI mobil, potrivit Google.
După ce acțiunea este executată, aplicația client surprinde o nouă captură de ecran și adresa URL actuală. Această nouă stare este apoi trimisă înapoi la modelul de utilizare a computerului ca `function_response`, repornind bucla. Acest proces iterativ permite agentului să Evaluează rezultatul ultimei sale acțiuni și determină următorul pas logic până când sarcina utilizatorului este finalizată. [Conținut încorporat] un nou front în AI Agent Wars
Google’s Entry AI Agent Wars. Se încălzește semnificativ un domeniu deja competitiv, escaladând cursa printre giganții tehnologici pentru a dezvolta „AI agentic” capabil. Antropic a fost un mutor timpuriu, introducând o caracteristică „de utilizare a computerului” pentru modelul său Claude 3.5 Sonet în octombrie 2024.
Mai recent, Antropic a început un pilot prudent, orientat către securitate, pentru extinderea browserului „Claude for Chrome”. După ce a introdus agentul inițial de „operator” în ianuarie 2025, compania a lansat agentul ChatGPT mult mai puternic în iulie 2025. Spre deosebire de modelul Google Browser, ChatGPT Agent operează un „computer virtual”, oferindu-i acces la un terminal pentru execuția codului, alături de browser-ul său. În calitate de VP Microsoft, Charles Lamanna, a capturat succint obiectivul final al industriei, „Dacă o persoană poate folosi aplicația, agentul poate. Versiunile acestei tehnologii alimentează deja instrumente interne, cum ar fi prototipul de cercetare, proiectul marinar și caracteristici agentice în modul AI în căutare, demonstrând o cale clară, de la experiment la produsul orientat către dezvoltatori.
performanță, siguranță și drum înainte
Google susține modelul său Outperforms de lider de alternative pe mai multe valori de referință de control web și mobile , inclusiv online-Mind2Web și Androidworld, menținând în același timp latență mai mică. Partenerii de acces timpuriu au făcut ecou în aceste revendicări de performanță.
un tester, asistentul AI Poke.com, a declarat: „Gemini 2.5 Utilizarea computerului este cu mult înaintea competiției, adesea fiind de 50% mai rapidă și mai bună decât următoarele cele mai bune soluții pe care le-am luat în considerare. Analizând contextul în cazuri complexe, creșterea performanței cu până la 18% pe cele mai grele evaluri ale noastre.”
În ciuda inovației rapide, întrebările despre eficacitatea din lumea reală a acestor agenți persistă.
un studiu din mai 2025 de la Universitatea Carnegie Mellon a constatat că chiar și agenții AI de top se luptă cu sarcini complexe de automatizare de afaceri. Acest scepticism este împărtășit de unii lideri ai industriei, CEO-ul perplexității Aravind Srinivas cerând ca „Oricine spune că agenții vor lucra în 2025 ar trebui să fie sceptic. Modelul poate emite o `siguranță_decision` care necesită o confirmare explicită a utilizatorului înainte de a executa acțiuni potențial sensibile, cum ar fi să facă o achiziție sau să predau date personale. Această abordare umană în buclă este o garanție critică pe măsură ce tehnologia se maturizează.