La startup AI OpenAGI ha presentato”Lux”, un agente per l’uso del computer che afferma di risolvere i problemi di affidabilità che affliggono l’attuale intelligenza artificiale. OpenAGI afferma un tasso di successo dell’83,6% sul benchmark Online-Mind2Web, un punteggio che supererebbe i modelli di punta di OpenAI e Anthropic di oltre 20 punti percentuali.

A differenza dei tradizionali Large Language Models (LLM) addestrati su testo statico, il modello di base Lux utilizza”Agentic Active Pre-training”, imparando direttamente da screenshot e sequenze di azioni. Elaborando dati visivi, secondo quanto riferito, il modello controlla applicazioni desktop native come Excel e Slack a un decimo del costo di inferenza dei concorrenti di frontiera.

Affrontando l'”illusione del progresso”citata dai ricercatori riguardo agli agenti web, la startup ha anche annunciato una partnership con Intel per ottimizzare Lux per l’esecuzione locale su dispositivi edge.

Distruggere l’illusione del progresso

Mentre il settore è stato inondato da dimostrazioni di agenti autonomi, una ricerca indipendente suggerisce un divario significativo tra le affermazioni di marketing e la realtà operativa. Un studio recente condotto da ricercatori della Ohio State University e della UC Berkeley ha rivelato quanti agenti si stavano adattando eccessivamente a set di dati statici memorizzati nella cache anziché navigare nella natura caotica e dinamica del web attivo.

Affrontando la disparità tra demo controllate e tassi di fallimento nel mondo reale, i ricercatori hanno notato la prematura celebrazione dell’attuale agente capacità.

Huan Sun, un ricercatore dell’OSU NLP Group, ha dichiarato:”Sembrava che agenti altamente capaci e pratici fossero forse solo a pochi mesi di distanza. Tuttavia, siamo anche ben consapevoli che ci sono ancora molte lacune fondamentali nella ricerca per agenti completamente autonomi.”

Per testare rigorosamente questi sistemi, il team di ricerca ha sviluppato un nuovo quadro di valutazione progettato per rompere gli agenti che si basano sulla memorizzazione. Questa suite costringe i modelli a interagire con siti Web live in cui gli elementi cambiano, compaiono popup e i flussi di lavoro cambiano in modo imprevedibile.

La metodologia è incentrata su “Online-Mind2Web”, un benchmark di recente introduzione progettato per simulare l’ampiezza dell’Internet moderna. Composto da 300 attività distinte su 136 siti Web del mondo reale, il set di dati va oltre le pagine statiche per testare gli agenti in ambienti live.

A seguito di una valutazione manuale di cinque modelli di frontiera, i risultati hanno dipinto un quadro preoccupante delle capacità attuali: con la notevole eccezione dell’Operatore di OpenAI, gli agenti più recenti non sono riusciti a sovraperformare”SeeAct”, un modello rudimentale rilasciato nel gennaio 2024.

In queste condizioni più difficili, le prestazioni dei leader di mercato affermati sono crollate precipitosamente. L’operatore di OpenAI, che ha debuttato con notevole clamore a gennaio, ha gestito un tasso di successo del 61,3%. L’offerta di Anthropic, ampiamente coperta dopo il rilascio della funzionalità Computer Use di Anthropic, ha ottenuto un punteggio del 61,0%.

Il punteggio riportato da Lux pari all’83,6% rappresenta un salto generazionale rispetto a questi operatori storici, suggerendo che la sua architettura sottostante gestisce il rumore del web aperto in modo più efficace rispetto ai modelli adattati dai LLM standard. Anche compiti semplici come prenotare voli o filtrare i risultati dell’e-commerce hanno storicamente fatto inciampare agenti”altamente capaci”, una tendenza che OpenAGI mira a invertire.

Il rigore scientifico rimane l’ostacolo principale per convalidare queste affermazioni. I benchmark auto-riferiti spesso divergono dalla riproduzione indipendente, in particolare quando l’ambiente di valutazione prevede condizioni di rete variabili e aggiornamenti del sito in tempo reale.

Sun ha inoltre avvertito:”In quanto campo scientifico, dobbiamo cautelarci contro l’eccessivo ottimismo, soprattutto quando i dati di supporto potrebbero essere insufficienti o distorti.”

Cambiamento architettonico: azioni sul testo

Guidare questo salto di prestazioni è un ripensamento fondamentale del modo in cui i modelli imparano a interagire con interfacce. La maggior parte degli agenti attuali sono essenzialmente motori di previsione del testo costretti a interpretare le interfacce utente visive (UI) come codice o alberi di accessibilità. OpenAGI sostiene che questo livello di traduzione introduce latenza ed errori.

Spiegando la divergenza dalle metodologie di formazione standard, l’azienda ha evidenziato i limiti dell’apprendimento basato su corpora.

Zengyi Qin, CEO di OpenAGI, ha spiegato che”la formazione LLM tradizionale inserisce una grande quantità di corpus di testo nel modello. Il modello impara a produrre testo. Al contrario, il nostro modello impara a produrre azioni.”

Questo”Agentic”Pre-allenamento attivo”crea un ciclo di feedback auto-rinforzante. Invece di acquisire passivamente i dati, il modello interagisce con gli ambienti durante la fase di addestramento, apprendendo le conseguenze di clic, scorrimenti e sequenze di tasti in tempo reale.

Descrivendo come il sistema migliora se stesso attraverso l’utilizzo, il CEO ha notato il valore aggiunto dell’interazione autonoma.”L’azione consente al modello di esplorare attivamente l’ambiente informatico e tale esplorazione genera nuova conoscenza, che viene poi restituita al modello per l’addestramento,”ha detto Qin ha detto a VentureBeat.

L’applicazione pratica di questa architettura è segmentata in tre modalità operative distinte, ciascuna ottimizzata per diversi tipi di flussi di lavoro aziendali. Questa segmentazione consente agli sviluppatori di bilanciare la velocità con la profondità del ragionamento a seconda della complessità dell’attività da svolgere.

Secondo la documentazione ufficiale del prodotto, le modalità sono definite come segue:

Tasker: segue rigorosamente le istruzioni passo passo, con un’esecuzione estremamente stabile e controllabile.

Actor: ideale per attività immediate, completando azioni a velocità quasi istantanea.

Pensatore: comprende obiettivi vaghi e complessi, eseguendo esecuzioni di un’ora.

[contenuto incorporato]

L’ambito di controllo è un altro elemento fondamentale di differenziazione. Mentre le prime iterazioni dell’agente Researcher di Microsoft e di Gemini 2.5 Computer Use di Google si concentravano principalmente sui flussi di lavoro basati su browser, Lux è progettato per gestire applicazioni desktop native.

Questa funzionalità si estende a suite software complesse come Adobe Creative Cloud e Microsoft Excel, dove le interfacce proprietarie spesso confondono gli agenti web standard.

La frontiera dell’edge e lo scetticismo del mercato

Al di là dei parametri grezzi delle prestazioni, la startup scommette su un modello di implementazione ibrido per corteggiare i clienti aziendali diffidenti nei confronti dei costi del cloud e della privacy dei dati. Ottimizzando per i dispositivi edge, OpenAGI mira a spostare l’inferenza dai server centralizzati all’hardware locale, riducendo le penalità di latenza che rendono lenti gli agenti desktop remoti.

Convalidando questo approccio incentrato sull’hardware, l’azienda ha confermato una collaborazione strategica per garantire che il modello funzioni in modo efficiente su silicio di livello consumer. Qin ha confermato:”Stiamo collaborando con Intel per ottimizzare il nostro modello sui dispositivi edge, che lo renderà il miglior modello di utilizzo del computer on-device.”

L’efficienza dei costi è fondamentale per questa strategia. OpenAGI afferma che Lux opera a un decimo del costo di inferenza dei modelli di frontiera per compiti equivalenti. Questa riduzione è fondamentale per i flussi di lavoro”Agentic AI”, che spesso richiedono centinaia di passaggi di inferenza per completare un singolo obiettivo, come la ricerca di un segmento di mercato o la riconciliazione di un foglio di calcolo.

Anche ai meccanismi di sicurezza è stata data priorità per affrontare i rischi dell’esecuzione autonoma. Precedenti incidenti, come quando è stato osservato l’agente ChatGPT aggirare i CAPTCHA di sicurezza, hanno evidenziato la possibilità che gli agenti agiscano in modo imprevedibile. Secondo quanto riferito, Lux include passaggi di ragionamento interno che costringono il modello a mettere in pausa e rifiutare richieste sensibili, come la copia dei dettagli bancari, anziché eseguire ciecamente la richiesta dell’utente.

Nonostante le specifiche impressionanti, lo scetticismo rimane vitale. La percentuale di successo dell’83,6% è attualmente una metrica auto-riferita trovata nei materiali per la stampa e non è stata ancora verificata in modo indipendente nella classifica pubblica Online-Mind2Web. Fino a quando gli sviluppatori di terze parti non saranno in grado di riprodurre questi risultati utilizzando Lux SDK, l’affermazione di”schiacciare”OpenAI e Anthropic resta un’affermazione audace, ma non dimostrata.

Categories: IT Info