Google sta avanzando in modo significativo le sue funzionalità di AI Agent, annunciando un’implementazione più ampia e aggiornamenti chiave per Project Mariner durante la sua conferenza di Google I/O 2025. Questa IA sperimentale, progettata per navigare e interagire con i siti Web per conto di un utente, ora opera su macchine virtuali basate su cloud e può gestire contemporaneamente fino a dieci attività. Questo sviluppo segnala l’intensificata spinta di Google a rimodellare l’interazione web, consentendo all’IA di svolgere attivamente attività, una mossa che potrebbe fondamentalmente alterare il modo in cui utenti e aziende si impegnano con Internet.
Inizialmente, Project Mariner è disponibile per gli abbonati statunitensi del nuovo piano Ultra di $ 249,99 per il mese di Google, con il supporto per più paesi anticipati presto. Fondamentalmente per gli sviluppatori, Google sta integrando le funzionalità di Project Mariner nell’API GEMINI e nell’intelligenza artificiale, con una più ampia disponibilità prevista questa estate.
Questa integrazione fornirà strumenti per la creazione di esperienze digitali più autonome, dall’acquisto di biglietti per l’ordinazione di generi alimentari senza visite al sito Web dirette. Testing partners like Automation Anywhere and UiPath are already building solutions with these capabilities.
The core of Project Mariner, as Google DeepMind describes, is its ability to observe what’s displayed in the browser, quindi motivo per interpretare gli obiettivi, fare un piano e agire. Ciò comporta l’identificazione e la comprensione di diversi elementi Web come testo, codice, immagini e forme per costruire una comprensione completa del contenuto sullo schermo. Un sistema di”insegnamento e ripetizione”consente inoltre all’intelligenza artificiale di apprendere le attività dopo una singola dimostrazione.
capacità migliorate e esperienza utente
Un aggiornamento chiave per Project Mariner è la sua transizione in esecuzione su macchine virtuali nel cloud. Ciò consente all’agente AI di completare le attività in background mentre gli utenti continuano con altri lavori: un notevole miglioramento rispetto al suo predecessore che si è svolto direttamente sul browser dell’utente e sull’attività simultanea limitata. Google afferma che la nuova iterazione può gestire fino a dieci attività contemporaneamente, un sostanziale aumento dell’efficienza.
[contenuto incorporato]
Gli utenti saranno eventualmente in grado di accedere a Project Mariner tramite la modalità AI su Google Search, inizialmente tramite laboratori di ricerca, con una dimostrazione che mostra i biglietti per la ricerca e la resistenza di baseball. Google sta collaborando con partner come Ticketmaster, StubHub, Resy e Vagaro per facilitare alcune di queste interazioni guidate dagli agenti.
Accanto a questo, Google ha anche dimostrato una prima versione di”Modalità agente”nell’app Gemini. Google descrive la modalità agente come un sistema in cui gli utenti possono semplicemente dichiarare il proprio obiettivo e Gemini”orchestrerà in modo intelligente i passaggi per raggiungerlo”.
La società spiega inoltre che la modalità agente integra caratteristiche avanzate come la navigazione web in diretta, la ricerca e le integrazioni delle app per gestire le attività complesse con un controllo minimo degli utenti. (L’approccio di Google a tali tecnologie è delineato nel loro
Navigando un panorama agente di intelligenza artificiale
Il progetto di progetto di Google entra in un campo sempre più competitivo dell’automazione guidata dall’AI. Openai ha ampliato l’accesso al suo agente AI, operatore, per gli utenti di Chatgpt Pro nel febbraio 2025, consentendo l’automazione dei flussi di lavoro digitali, sebbene l’operatore richieda un’esplicita approvazione degli utenti prima di eseguire le azioni. Microsoft ha inoltre visualizzato in anteprima una funzione di”uso del computer”all’interno del suo studio Copilot nell’aprile 2025, rivolto all’automazione aziendale.
Antropico è stato anche un lettore chiave, aggiornando il suo modello Sonnet Claude 3.5 nell’ottobre 2024 che gli consente di gestire le attività di desktop. Questi strumenti, tra cui la Nova Act di Amazon, sono in gran parte in fasi sperimentali e le prime esperienze hanno talvolta trovato lenti o soggette a errori. L’integrazione di Project Mariner nella modalità agente di Gemini sfrutta i modelli avanzati in linguaggio di visione per interpretare gli elementi visivi, un differenziatore chiave.
realtà per le prestazioni e una più ampia strategia di intelligenza artificiale
Nonostante i rapidi progressi, l’efficacia pratica degli attuali agenti AI in autonomamente che gestiscono i resti professionali complessi sotto il controllo. Uno studio della Carnegie Mellon University ha offerto una valutazione che fa riflettere sulle capacità degli agenti di intelligenza artificiale.
Lo studio ha scoperto che anche il leader di AI ha completato completamente solo il 24% delle attività assegnate. I ricercatori hanno indicato questioni come”una mancanza di buon senso, scarse capacità sociali e incompetenza nella navigazione sul web”, concludendo che mentre gli agenti di intelligenza artificiale possono aiutare,”probabilmente non sono un sostituto per tutti i compiti al momento”, secondo lo studio.
L’esplorazione di Google negli agenti AI si estende oltre il progetto Mariner. I rapporti dell’inizio di maggio 2025 hanno suggerito che Google stava testando una funzione”Uso del computer”all’interno del suo studio AI, potenzialmente collegata ai suoi modelli Gemma 3 e alla distribuzione a forma di cloud. Ciò si allinea con la più ampia strategia di Google Cloud, che ha fatto riferimento ai sistemi di intelligenza artificiale multi-agente come la”prossima frontiera”.
Sundar Pichai, CEO di Google, ha sottolineato questa visione, descrivendo gli agenti come sistemi che”combinano l’intelligenza dei modelli AI avanzati con l’accesso agli strumenti, così possono intraprendere azioni su di elabori e sotto il tuo controllo”. Mentre Google continua a sviluppare queste tecnologie agenti, il loro successo dipenderà non solo sull’abilità tecnica, ma anche sull’affidabilità, sulla sicurezza e sulle sfide sfumate dell’automazione delle attività del mondo reale.