Vaikka yritykset tutkivat AI-agenttien suunnitelmia monimutkaisten työpaikkojen haltuunotosta ja pyrkivät jopa automatisoimaan kymmeniä tuhansia liittovaltion rooleja, Carnegie Mellonin yliopiston tutkijoiden annos todellisuudesta tulee. Tutkimus, nimeltään “TheagentCompany”, löysi jopa parhaan suorituksen suorittaneen suoritetun neljänneksen määritettyjen tehtävien menestyksekkäästi haastavien kertomusten ehdottaen AI: n laaja-alaisten työautojen kanssa. href=”https://arxiv.org/pdf/2412.14161″Target=”_ tyhjä”> arxiv-paperi , sijoitettu AI-agentteihin pienen ohjelmistoyrityksen yksityiskohtaisessa simulaatiossa. Tämä ympäristö sisälsi sisäiset verkkosivustot, jotka on rakennettu avoimen lähdekoodin alustoilla, kuten Gitlab (koodin hosting), owncloud (toimistopaketti), lentokone (projektinhallinta) ja rocketchat (sisäinen viestintä), hiekkalaatikon paikallisen työtilan rinnalla terminaalilla ja koodauskäyttöön.

agentit, ensisijaisesti ajon avulla OpenHands Agent Framework (avoimen lähdekoodin järjestelmä rakennusasiamiehille, jotka voivat käyttää tietokonesovelluksia), annettiin 175 ohjelmistotekniikan, rahoituksen, HR: n, projektinhallintaa ja hallinnollisia tehtäviä. Nämä tehtävät on suunniteltu reaalimaailman työn kuvauksiin lähteistä, kuten o*nettotietokanta ja kirjoituskokemus.

arviointi. Arviointi liittyi automaattisten tarkastusten vastaisiin tarkastuspisteisiin. LLM-pohjainen arvio subjektiivisemmille tarkistuksille. Ympäristössä esiteltiin myös simuloidut kollegat-NPC: t, jotka saavat Antropicin Claude 3.5 Sonnet-sovelluksen SOTOPIA-alusto (kehys simuloitujen sosiaalisten ympäristöjen luomiseen)-testiin vuorovaikutukseen. Kompastu jokapäiväisiin tehtäviin

Tulokset maalaavat kuvan syntyvästä, usein kömpelöstä, kyvystä. Antropisin Claude 3.5 Sonnet johti pakkausta, mutta saavutti vain 24,0%: n täydellisen tehtävän suorittamisprosentin (34,4% osittainen pistemäärä). Tämä suorituskyky oli huomattavalla operatiivisella kustannuksella, keskimäärin yli 6 dollaria ja lähes 30 vuorovaikutusvaihetta tehtävää kohti. Googlen Gemini 2.0 Flash oli erityisen halvempi (0,79 dollaria/tehtävä), mutta paljon hitaampi (melkein 40 vaihetta) ja vähemmän onnistunut (11,4%). OpenAi’s GPT-4O rekisteröi 8,6% menestystä (1,29 dollaria/tehtävä), kun taas Meta: n avoin Weight LLAMA 3.1 405B saavutti 7,4% (3,21 dollaria/tehtävä). Muut mallit, mukaan lukien Amazonin Nova Pro V1 (1,7%), jäljittivät edelleen. Nämä alhaiset menestysasteet johtuvat monista havaituista kysymyksistä. Perus järki näytti usein olevan poissa; Agentit saattavat kohdella”.docx”-tiedostoa, kuten tavallista tekstiä tai, kuten yhdessä lähteessä todetaan, osoittautuu kykenemättömäksi hylkäämään”vaarattoman ponnahdusikkunan”estävät tarvittavat tiedostot. Sosiaaliset taidot olivat myös heikkoja, kun agentit käyttävät simuloitua Rocketchat-järjestelmää tulkitsemaan väärin keskusteluja tai eivät noudata asianmukaisesti.

Tutkijat dokumentoivat yhden tapauksen, jossa agentti, joka ei löytänyt oikean yhteydenpitoa chat-järjestelmästä,”päättää luoda pikakuvaketta uudelleen nimeämällä toisen käyttäjän uudelleen aiotun käyttäjän nimeksi.”Monimutkaisten verkkokäyttöliittymien navigointi osoittautui erityisen vaikeaksi, etenkin Owncloud Office-pakettiympäristössä. Tutkijat tunnistivat yleisesti yleiset epäonnistumispisteet terve järjen, huonojen sosiaalisten taitojen ja epäpätevyyden puutteena web-selaamisessa. Agentit menestyivät yleensä paremmin ohjelmistokehitystekniikan (SDE) tehtävien kanssa verrattuna hallinnon, rahoituksen tai datatieteen rooliin, joissa onnistumisaste oli usein lähellä nollaa. Tutkijoiden hypoteesoivat, että tämä ero voi johtua SDE-tehtävien koulutusmalleissa käytettävissä olevan julkisen koodin suuresta määrästä, kun taas hallinnollisten tai taloudellisten työpaikkojen työnkulkut ovat usein omistusoikeudellisia ja vähemmän edustettuina koulutustiedoissa.

kyky olla vuorovaikutuksessa myös eri alustojen kanssa. Agentit osoittivat erityisiä vaikeuksia tehtävien kanssa, joissa oli mukana Rocketchat Communication Platform ja Owncloud Office-sviitti, mikä viittaa siihen, että sekä sosiaalinen päättely että monimutkainen Web-käyttöliittymä navigointi ovat edelleen suuria esteitä. Tehtävien suorituskyky, johon osallistui GitLab (koodin hosting) ja lentokone (projektinhallinta), oli suhteellisen parempi, vaikkakin vielä kaukana luotettavasta.

Automaatiohjelmien todellisuuden tarkistus

Nämä vertailutulokset tarjoavat jyrkän kontrastin korkeille odotuksille ja jatkuville kehitystyöille teknologiateollisuudessa. Microsoft aloitti Copilot Studion”tietokoneen käyttöä”-agenttien esikatselun huhtikuussa 2025 ja pyrkii automatisoimaan GUI-vuorovaikutuksia. Openai tutkii tietysti korkeatasoista “PhD-tason”tutkimusagentteja yritysautomaatiolle aikaisemmin maaliskuussa 2025.

Ehkä silmiinpistävintä, Elon Muskin Doge-aloitteen suunnitelmat, jotka liittyivät huhtikuun lopulla, ja siihen sisältyy AI-agenttien käyttöön tarkoitettua rekrytointia. Tämä ehdotus saavutettiin sisäiseen skeptisyyteen Palantir-alumniverkostossa, kun yksi kriitikko torjuu:”Olet osallistumassa 70K: n liittovaltion työntekijöiden ampumiseen ja korvaamalla heidät paskalla automaattisesti.”TheagentCompany-havainnot korostavat tällaisia ​​laaja-alaisten automaatiosuunnitelmien ympäröivillä toteutettavuuskysymyksillä.

Agenttien kamppailut vertailukohdassa ovat yhdenmukaisia ​​nykyisten AI-malleihin liittyvien tunnettujen heikkouksien kanssa. Antropisin tietoturvapäällikkö varoitti huhtikuussa 2025, että teollisuus on valmistautunut autonomisten”virtuaalisten työntekijöiden”asettamiin turvallisuus-ja johtamishaasteisiin, korostaen tunnettuja kysymyksiä, kuten AI-hallusinaatiota ja haavoittuvuutta nopeaan injektioon. Osallistumaton yrityspolitiikka huhtikuun lopulla 2025. Carnegie Mellon-tutkijat päättelivät, että vaikka edustajat saattavat nopeuttaa ihmisen osia, ne eivät todennäköisesti korvaa kaikkia tehtäviä tällä hetkellä.”Yritykset, jotka kokeilevat tällä hetkellä edustajia, kuten Johnson & Johnson, korostavat ihmisten pitämistä mukana, katsomassa AI: tä yhteistyövälineenä sen sijaan, että korvaavat lähitulevaisuudessa.

Categories: IT Info