Uusi akateeminen paperi, jonka on kirjoittanut tutkijat huippuyliopistoista ja Amazon on antanut karkean varoituksen AI-teollisuudelle: edistymisen mittaamiseen käyttämämme vertailuarvot ovat pohjimmiltaan virheellisiä. Tällä viikolla julkaistu tutkimus paljastaa, että suositut arviointimenetelmät voivat arvioida AI-agentin todellisia kykyjä väärin jopa 100 prosentilla. Tutkimus, UIUC: n, Stanfordin, MIT: n, Amazonin ja muiden mielien välinen yhteistyö kyseenalaistaa perustan siitä, kuinka luokittelemme ai.

Tekijät väittävät, että monet nykyiset testit”agentisille”AI-järjestelmille, jotka suorittavat monimutkaisia, monivaiheisia tehtäviä-kuvitellaan kriittisistä kysymyksistä suunnittelussaan ja pisteytyksessään. Kuten artikkelissa todetaan, “monet olemassa olevat agentiset vertailuarvot voivat väärin arvioida AI-suorituskykyä jopa 100%: lla tehtävien asetusten ja palkkioiden suunnittelun aiheiden vuoksi…”Tämä havainto viittaa siihen, että teollisuus voi jahtaa harhaanjohtavia mittareita.

Uusi tutkimus haastaa AI-arvioinnin perustan

paperi , nimeltään “Sydän epäonnistumisten luominen agenttien vertailuarvojen rakentamiseen”. Ensimmäinen on “lopputuloksen pätevyys”, jossa testi ei vahvista, jos AI todella onnistui. Toinen, “tehtävän pätevyys” tarkoittaa, että tehtävä itsessään on virheellinen, mikä mahdollistaa pikakuvakkeita tai triviaalisia ratkaisuja.

Esimerkiksi paperi korostaa, kuinka joissain vertailuarvoissa väärä koodikorjaus voi silti siirtää testisarjan, luomalla väärän positiivisen. Toisessa triviaalinen aine, joka ei tee mitään, voi onnistuneesti läpäistä 38% tehtävistä, mikä ylittää hienostuneemmat mallit tietyillä mittareilla.

Näillä puutteilla on konkreettiset seuraukset. Tutkimuksessa havaittiin, että pisteytysvirheet voivat lisätä aineen ilmoitettua suorituskykyä jopa 100% suhteessa sen todellisiin kykyihin. Lopettavien vaikutusten loppupään vaikutus on merkittävä kilpailevien tulostaulujen vääristymä, jossa tutkijoiden havaitsi, että agentit voisivat väärinkäyttää jopa 40 prosenttia. Tämä asettaa kyseenalaiseksi niiden sijoitusten pätevyyden, jotka Googlen laboratorioista Openai-käyttämiseen käyttämään paremmuutta ja ohjaamaan heidän tutkimuspyrkimyksiään.

tämän ratkaisemiseksi kirjoittajat ottivat käyttöön agentisen vertailukohdan tarkistuslistan (ABC). Tämä kehys tarjoaa joukon tiukkoja ohjeita tieteellisesti järkevien arviointien luomiseksi. Tavoitteena on injektoida kurinalaisuus prosessiin, josta on tullut korkea panos ja usein kritisoitu, katsojaurheilu.

joukkojenopettavien tulostaulujen nousu ja tarkastelu

ei missään nimessä ole voimakkaampaa kuin LMARENA, aikaisemmin chatbot-areena. UC Berkeleyn Sky Computing Labista lanseerattiin nopeasti teollisuuden niitti. Sen uudessa lähestymistapassa käytetään joukkotutkimuksia, sokeaa päästä päähän mallivertailuja ELO-pohjaisen tulostaulun tuottamiseksi. Lmarenan perustaja Anastasios N. Angelopoulos kuvasi yrityksen kunnianhimoista tavoitetta alustalle ja totesi: “Maailmassa kilpa-kilpa-ajan rakentaakseen jatkuvasti leviämistä malleja, vaikea kysymys ei enää ole mitä voi tehdä. Pikemminkin se on, kuinka hyvin se voi tehdä se tietyille käyttötapauksille ja kenelle.”Kriitikot väittävät, että yksinkertainen mieltymysäänestys ei ole luotettava mitta AI: n laadusta. Washingtonin yliopiston kielitiedeprofessori Emily Bender ilmaisi tämän skeptisyyden TechCrunchiin.

Bender väitti:”Ollakseen kelvollinen, vertailukohdan on mitattava jotain erityistä, ja sen on oltava rakennettavan pätevyyden-toisin sanoen on oltava todisteita siitä, että mielenkiinnon kohteena oleva rakenne ei ole määritelty.”Korreloi mieltymysten kanssa, mutta ne voidaan kuitenkin määritellä.”Eteenpäin

Uuden ABC-kehyksen tavoitteena on olla vastalääke tälle epävarmuudelle. Se tarjoaa konkreettisen joukon parhaita käytäntöjä, jotka kattavat kaiken varmistamisesta, että tehtävät on suunniteltu asianmukaisesti varmistamaan, että arviointimittarit ovat vankkoja eikä niitä ole helposti pelaamassa.

Tarkistusluettelo on rakennettu kolmeen avainalueeseen: tehtävän pätevyys, lopputuloksen pätevyys ja läpinäkyvä raportointi. Tämä varmistaa paitsi, että testi on oikeudenmukainen ja tulokset ovat tarkkoja, mutta myös sitä, että vertailukohdan rajoitukset ilmoitetaan selvästi käyttäjille.

Paperin kirjoittajat osoittivat tarkistusluettelon arvon soveltamalla sitä CVE-Benchiin, kyberturvallisuusvertailuun. Toteuttamalla ABC: n periaatteet, ne vähensivät vertailukohdan suorituskyvyn yliarviointia merkittävällä 33 prosentilla. Tämä tarjoaa selkeän konseptin tehokkuudestaan. Lmarenan perustaja ja Berkeley-professori Ion Soica tunnusti aukon, jonka alustan tavoitteena on täyttää ja totesi: “AI-arviointi on usein jäljessä mallikehityksestä. Lmarena sulkee tämän aukon asettamalla tiukan, yhteisöllisen tieteen keskuksessa.”Keskeinen jännitys AI-kisassa: Nopean, julkisen määritelmän arvioinnin tarve suhteessa hitaampaan, metodisempaan tieteellisen validoinnin vauhtiin. Lmarenan tiimi on sitoutunut julkisesti oikeudenmukaisuuteen, kun yksi blogiviesti julistaa: “Tulostaulumme ei koskaan ole puolueellinen mihin tahansa palveluntarjoajaan (tai heijastaa uskollisesti yhteisömme mieltymyksiä suunnittelusta. Se on tiedepohjaista.”Kristine Gloria, entinen Aspen-instituutti, varoitti, että tällaisten vertailuarvojen”ei tulisi koskaan olla ainoa arviointi”ja niiden tulisi olla yksi työkalu monien joukossa.

Viime kädessä vastuu kuuluu sekä vertailukohtaisiin ja niitä käyttäviin AI-laboratorioihin. Kuten Matt Frederikson of Grey Swan AI neuvoi, “sekä mallin kehittäjille että vertailukohteiden luojille on tärkeää kommunikoida tulokset selvästi niille, jotka seuraavat, ja reagoivat, kun heidät asetetaan kyseenalaiseksi,”uusi tutkimus tarjoaa voimakkaan työkalun, joka auttaa heitä vain, työntämällä teollisuutta rehellisemmälle AI: n todelliselle kyvylle.

Categories: IT Info