Mentre le aziende esplorano i piani per gli agenti di intelligenza artificiale per assumere posti di lavoro complessi, mirando persino ad automatizzare decine di migliaia di ruoli federali, una dose di realtà proviene dai ricercatori della Carnegie Mellon University.
Il loro punto di riferimento dettagliato, simulando una società di software interamente da AI, hanno scoperto che gli attuali agenti hanno lottato con task professionali realistici. Lo studio, soprannominato “TheAgentCompany”, Trovato anche il miglior performer ha completato meno di un quarto dei doveri assegnati con successo href=”https://arxiv.org/pdf/2412.14161″Target=”_ blank”> Arxiv Paper , collocato agenti di intelligenza artificiale all’interno di una simulazione dettagliata di una piccola società di software. Questo ambiente includeva siti Web interni costruiti utilizzando piattaforme open source come Gitlab (hosting di codice), proprietario (Suite Office), aereo (gestione del progetto) e RocketCat (comunicazione interna), insieme a un’area di lavoro locale di sandbox con manubrio. Target=”_ Blank”> OpenHands Agent Framework (un sistema open source per gli agenti di costruzione che possono gestire applicazioni informatiche), sono stati assegnati 175 compiti che abbracciano ingegneria del software, finanza, risorse umane, gestione del progetto e mansioni amministrative. Queste attività sono state progettate in base a descrizioni di lavoro del mondo reale da fonti come o*net database ed esperienza dell’autore. Valutazione basata su LLM per controlli più soggettivi. L’ambiente presentava anche colleghi simulati-NPC alimentati dal sonetto Claude 3.5 di Antropico tramite il sotopia piattaforma (framework per creare ambienti sociali simulati)-per testare funzionalità di interazione-funzionalità di interazione test. Inciampare su compiti di tutti i giorni
I risultati dipingono un’immagine di capacità nascente, spesso goffa. Il sonetto Claude 3.5 di Antropico ha guidato il pacchetto ma ha ottenuto solo un tasso di completamento dell’attività completa del 24,0% (punteggio parziale del 34,4%). Questa performance è arrivata a una notevole spesa operativa, con una media di oltre $ 6 e quasi 30 passaggi di interazione per attività. Il flash Gemini 2.0 di Google è stato notevolmente più economico ($ 0,79/attività) ma molto più lento (quasi 40 passi) e meno successo (11,4%). Il GPT-4O di Openi ha registrato il successo dell’8,6% ($ 1,29/attività), mentre Llama 305B a peso aperto di Meta ha raggiunto il 7,4% ($ 3,21/attività). Altri modelli, tra cui Nova Pro V1 di Amazon (1,7%), sono passati più indietro. Questi bassi tassi di successo derivano da una serie di problemi osservati.
in cui gli agenti vacillano
l’analisi dei guasti indicati a limitazioni fondamentali nelle capacità degli agenti. Il buon senso di base sembrava spesso assente; Gli agenti potrebbero trattare un file”.docx”come un testo semplice o, come notato in una fonte, non essere in grado di respingere un”innocuo pop-up”bloccando i file necessari. Anche le competenze sociali erano deboli, con agenti che utilizzavano il sistema RocketCat simulato che interpretavano erroneamente conversazioni o non avevano seguito in modo appropriato.
I ricercatori hanno documentato un’istanza in cui un agente, incapace di trovare il contatto corretto nel sistema di chat,”decide di creare una soluzione di scelta rapida rinominando un altro utente al nome dell’utente intenzionale”. La navigazione in UI Web complesse si è rivelata particolarmente difficile, soprattutto all’interno dell’ambiente di Office Suite. I ricercatori hanno ampiamente identificato i punti di fallimento comuni come una mancanza di buon senso, scarse capacità sociali e incompetenza nella navigazione web.
progressi irregolari in diversi tipi di lavoro
Le prestazioni non erano uniformi tra le categorie di attività. Gli agenti generalmente sono andati meglio con le attività di ingegneria dello sviluppo del software (SDE) rispetto ai ruoli in amministrazione, finanza o scienza dei dati, in cui i tassi di successo erano spesso quasi zero. I ricercatori ipotizzano che questa disparità potrebbe derivare dalla grande quantità di codice pubblico disponibile per i modelli di formazione su attività SDE, mentre i flussi di lavoro per lavori amministrativi o finanziari sono spesso proprietari e meno rappresentati nei dati di formazione.
La capacità di interagire con diverse piattaforme varia anche. Gli agenti hanno mostrato particolari difficoltà con compiti che coinvolgono la piattaforma di comunicazione RocketCat e la propria suite Office, suggerendo che sia il ragionamento sociale che la complessa navigazione dell’interfaccia utente web rimangono principali ostacoli. Le prestazioni su attività che coinvolgono GitLab (hosting di codice) e aereo (gestione del progetto) sono state relativamente migliori, sebbene ancora tutt’altro che affidabili.
Un controllo di realtà per le ambizioni di automazione
Questi risultati di riferimento forniscono un netto contrasto con le alte aspettative e gli sforzi di sviluppo all’interno del settore tecnologico. Microsoft ha iniziato a visualizzare in anteprima agenti”Uso del computer”in Copilot Studio nell’aprile 2025, con l’obiettivo di automatizzare le interazioni della GUI. Secondo quanto riferito, Openai sta esplorando agenti di ricerca”a livello di dottorato”ad alto costo per l’automazione aziendale all’inizio di marzo 2025.
Forse soprattutto, i piani legati all’iniziativa DOGE di Elon Musk sono emersi a fine aprile, coinvolgendo il reclutamento per un progetto che mira a un progetto con l’obiettivo di dispiegare AI Agence capace di sostituire il lavoro equivalente di”ad almeno 70k”. Questa proposta è stata accolta con lo scetticismo interno all’interno di una rete di ex-alunni di Palantir, con un critico che ha ribadito:”Sei complice nel licenziare 70.000 dipendenti federali e sostituirli con merda autocorrect”. I risultati di TheAgentCompany sottolineano le domande di fattibilità che circondano tali piani di automazione su larga scala.
Le lotte degli agenti nel punto di riferimento si allineano con i punti deboli noti inerenti agli attuali modelli AI. Il responsabile della sicurezza delle informazioni di Antropico ha avvertito nell’aprile 2025 che l’industria non è preparata per le sfide della sicurezza e della gestione poste da”dipendenti virtuali autonomi”, evidenziando problemi noti come l’allucinazione dell’IA e la vulnerabilità a iniezione rapida. Politica aziendale inesistente alla fine di aprile 2025. I ricercatori di Carnegie Mellon hanno concluso che mentre gli agenti potrebbero accelerare porzioni di lavoro umano,”probabilmente non sono una sostituzione di tutti i compiti al momento.”
hanno disegnato parallelismi al mercato della traduzione della macchina, dove i guadagni di efficienza hanno portato a una domanda maggiore piuttosto che a una traduzione umana. Le aziende che attualmente sperimentano agenti, come Johnson & Johnson, sottolineano il coinvolgimento di esseri umani, considerando l’IA come strumento per la collaborazione piuttosto che sostituire il prossimo futuro.