Google avansează în mod semnificativ capacitățile sale de agent AI, anunțând o lansare mai largă și actualizări cheie la Project Mariner în cadrul conferinței sale Google I/O 2025. Această AI experimentală, concepută pentru a naviga și a interacționa cu site-urile web în numele unui utilizator, funcționează acum pe mașini virtuale bazate pe cloud și poate gestiona simultan până la zece sarcini. Această dezvoltare semnalează apăsarea intensificată a Google de a remodela interacțiunea web, abilindând AI să îndeplinească activ sarcini, o mișcare care ar putea modifica fundamental modul în care utilizatorii și întreprinderile se angajează cu internetul.
Inițial, Project Mariner este disponibil pentru abonații americani din noul plan de 249,99 USD pe-l-pe-lunar, cu sprijinul mai multor țări anticipate. În mod crucial pentru dezvoltatori, Google integrează funcționalitățile proiectului Mariner în API-ul Gemini și Vertex AI, cu o disponibilitate mai largă așteptată în această vară.
Această integrare va oferi instrumente pentru crearea mai multor experiențe digitale autonome, de la achiziționarea de bilete la comanda alimentelor fără vizite directe ale site-ului web. Testing partners like Automation Anywhere and UiPath are already building solutions with these capabilities.
The core of Project Mariner, as Google DeepMind describes, is its ability to observe what’s displayed in the browser, apoi motiv pentru a interpreta obiectivele, a face un plan și a lua măsuri. Aceasta implică identificarea și înțelegerea elementelor web diverse precum textul, codul, imaginile și formularele pentru a construi o înțelegere cuprinzătoare a conținutului de pe ecran. Un sistem „predă și repet” permite în continuare AI să învețe sarcinile după o singură demonstrație.
Capabilități îmbunătățite și experiență de utilizator
Un upgrade cheie pentru Project Mariner este tranziția sa la rularea pe mașini virtuale din cloud. Acest lucru permite agentului AI să finalizeze sarcinile în fundal, în timp ce utilizatorii continuă cu alte lucrări-o îmbunătățire notabilă a predecesorului său, care a funcționat direct pe browserul utilizatorului și activitatea concomitentă limitată. Google afirmă că noua iterație poate gestiona până la zece sarcini simultan, un impuls substanțial al eficienței.
[Conținut încorporat]
Utilizatorii vor putea accesa în cele din urmă Project Mariner prin modul AI pe Google Search, inițial prin laboratoare de căutare, cu o demonstrație care arată modul AI găsind rapid și rezervând bilete de joc de baseball. Google colaborează cu parteneri precum Ticketmaster, StubHub, Resy și Vagaro pentru a facilita unele dintre aceste interacțiuni bazate pe agenți.
Alături de aceasta, Google a demonstrat, de asemenea, o versiune timpurie a „Modului Agent” în aplicația Gemini. Google descrie modul agent ca un sistem în care utilizatorii își pot afirma pur și simplu obiectivul, iar Gemini va „orchestra în mod inteligent pașii pentru a-l atinge. (Abordarea Google a unor astfel de tehnologii este subliniată în AI Responsabilitatea principiilor
navigând un peisaj competitiv AI Agent
Proiectul Google Mariner intră într-un domeniu din ce în ce mai competitiv al automatizării bazate pe AI. OpenAI a lărgit accesul la agentul său AI, operatorul, pentru utilizatorii ChatGPT Pro în februarie 2025, permițând automatizarea fluxurilor de lucru digitale, deși operatorul necesită o aprobare explicită a utilizatorului înainte de a executa acțiuni. Microsoft a previzualizat, de asemenea, o caracteristică „Utilizare a computerului” în cadrul studioului său Copilot în aprilie 2025, care vizează Enterprise Automation.
Antropic a fost, de asemenea, un jucător cheie, modernizând modelul său Claude 3.5 Sonnet în octombrie 2024 care îi permite să gestioneze sarcinile desktop. Aceste instrumente, inclusiv actul Nova al Amazonului, sunt în mare parte în etape experimentale, iar experiențele timpurii le-au găsit uneori lent sau predispus la erori. Integrarea proiectului Mariner în modul de agent al Gemeniului folosește modele avansate de limbaj vizual pentru a interpreta elementele vizuale, un diferențiator cheie.
realități de performanță și strategia AI mai largă
În ciuda progreselor rapide, eficiența practică a actualilor agenți AI actuali în manipularea autonomilor îndatoriri profesionale, rămâne sub referință. Un studiu al Universității Carnegie Mellon a oferit o evaluare plină de viață a capacităților agentului AI.
Studiul a constatat că chiar și AI-ul de conducere a finalizat pe deplin doar 24% din sarcinile alocate. Cercetătorii au indicat probleme precum „lipsa de bun simț, abilități sociale slabe și incompetență în navigarea pe web”, concluzionând că, în timp ce agenții AI pot ajuta, „probabil nu sunt o înlocuire pentru toate sarcinile în acest moment”, potrivit studiului.
explorarea propriei Google în agenții AI se extinde dincolo de marina de proiect. Rapoartele de la începutul lunii mai 2025 au sugerat că Google a testat o funcție „de utilizare a computerului” în cadrul studioului său AI, potențial legat de modelele sale Gemma 3 și de implementarea simplificată a Cloud Run. Acest lucru se aliniază cu strategia mai largă a Google Cloud, care s-a referit la sistemele AI multi-agenți drept „următoarea frontieră”.
CEO-ul Google, Sundar Pichai, a subliniat această viziune, descriind agenții ca sisteme care „combinați inteligența modelelor avansate de AI cu acces la instrumente, astfel încât să poată lua măsuri în numele dvs. și sub controlul dvs.”, la Google I/. Pe măsură ce Google continuă să dezvolte aceste tehnologii agentice, succesul lor se va baza nu numai pe priceperea tehnică, ci și pe abordarea fiabilității, siguranței și provocărilor nuanțate ale automatizării sarcinilor din lumea reală.