Studimi: Standardet e AI me të meta të thella, mund të mbivlerësojnë performancën me 100%

Një letër e re akademike bashkëautor nga studiues nga universitetet e larta dhe Amazon ka dhënë një paralajmërim të ashpër për industrinë e AI: standardet që ne përdorim për të matur përparimin janë thelbësisht të meta. Studimi, i botuar këtë javë, zbulon se metodat e vlerësimit popullor mund të gabojnë aftësitë e vërteta të një agjenti AI deri në 100 përqind. Hulumtimi, një bashkëpunim midis mendjeve në UIUC, Stanford, MIT, Amazon, dhe të tjerët, vë në dyshim themelin e mënyrës se si ne rendisim AI. Siç thotë punimi,”Shumë standarde ekzistuese agjentësh mund të keqinterojnë performancën e AI deri në 100% për shkak të çështjeve në krijimin e detyrave dhe modelimit të shpërblimit…”Ky konstatim sugjeron që industria mund të jetë duke ndjekur metrikë mashtruese.

Një studim i ri sfidon themelet e vlerësimit të AI

letra , të titulluar”Vendosja e praktikave më të mira për ndërtimin e agjentëve rigoroze të agjentëve,”Identifties Target=”_ Blank”> Paper”. E para është”vlefshmëria e rezultatit”, ku një test nuk arrin të konfirmojë nëse një AI me të vërtetë pati sukses. E dyta,”vlefshmëria e detyrës”, do të thotë që detyra në vetvete është e gabuar, duke lejuar shkurtore ose zgjidhje të parëndësishme. Në një tjetër, një agjent i parëndësishëm që nuk bën asgjë nuk mund të kalojë me sukses 38% të detyrave, duke tejkaluar modele më të sofistikuara në metrikë të caktuar.

Këto të meta kanë pasoja të prekshme. Studimi zbuloi se gabimet e shënimit mund të fryjnë performancën e raportuar të një agjenti deri në 100% në krahasim me aftësitë e tij të vërteta. Efekti në rrjedhën e poshtme është një shtrembërim i konsiderueshëm i tabelave konkurruese, ku studiuesit zbuluan se agjentët mund të keqbëren me 40 përqind. Kjo vë në dyshim vlefshmërinë e renditjes që laboratorët nga Google në Openai përdorin për të kërkuar epërsi dhe për të udhëhequr përpjekjet e tyre kërkimore. Ky kornizë ofron një sërë udhëzimesh rigoroze për krijimin e vlerësimeve më të shëndosha shkencore. Qëllimi është të injektojmë disiplinën në një proces që është bërë një interes i lartë, dhe shpesh i kritikuar, spektator i spektatorëve. Nisur nga Laboratori i Kompjuterit Sky i UC Berkeley, ai u bë me shpejtësi një element kryesor i industrisë. Qasja e saj e romanit përdor krahasime të modelit të blinduar, kokë më kokë për të gjeneruar një tabelë me bazë ELO. Bashkëthemeluesi i Lmarena Anastasios N. Angelopoulos përshkroi qëllimin ambicioz të kompanisë për platformën, duke deklaruar,”Në një gara botërore për të ndërtuar modele gjithnjë e më të mëdha, pyetja e vështirë nuk është më ajo që mund të bëjë ai. Përkundrazi, është se sa mirë mund ta bëjë atë për raste të përdorimit specifik, dhe për kë.”Kritikët argumentojnë se një votim i thjeshtë me preferencë nuk është një masë e besueshme e cilësisë së një AI. Emily Bender, një profesore e gjuhësisë në Universitetin e Uashingtonit, e shprehu këtë skepticizëm në TechCrunch. Preferencat, megjithatë ato mund të përcaktohen.”Përpara

Kuadri i ri ABC synon të jetë antidot për këtë pasiguri. Ajo siguron një grup konkret të praktikave më të mira, duke mbuluar gjithçka nga sigurimi i detyrave janë krijuar siç duhet për të verifikuar se metricat e vlerësimit janë të forta dhe jo lehtësisht të gamed. Kjo siguron jo vetëm që testi të jetë i drejtë dhe rezultatet të jenë të sakta, por gjithashtu që kufizimet e standardit u komunikohen qartë përdoruesve. Duke zbatuar parimet e ABC, ata ulën mbivlerësimin e performancës së standardit me një 33 përqind të rëndësishëm. Kjo siguron një provë të qartë të konceptit për efektivitetin e tij. Ion Stoica, një bashkëthemelues i Lmarena dhe profesor i Berkeley, e pranoi hendekun që platforma synon të plotësojë, duke deklaruar,”Vlerësimi i AI shpesh ka mbetur pas zhvillimit të modelit. Lmarena mbyllet atë hendek duke e vendosur shkencën e rreptë, të drejtuar nga komuniteti.”Një tension qendror në racën e AI: nevoja për vlerësim të shpejtë, të përballur me publikun përkundrejt ritmit më të ngadaltë, më metodik të vlefshmërisë shkencore. Ekipi i Lmarena është përkushtuar publikisht për drejtësi, me një postim në blog që deklaron,”Drejtuesi ynë nuk do të jetë i njëanshëm ndaj (ose kundër) çdo ofruesi, dhe do të pasqyrojë me besnikëri preferencat e komunitetit tonë sipas dizajnit. Ai do të jetë i drejtuar nga shkenca.”Kristine Gloria, dikur e Institutit Aspen, paralajmëroi se standarde të tilla”kurrë nuk duhet të jenë metrika e vetme për vlerësim”dhe duhet të jetë një mjet midis shumë. Siç këshilloi Matt Frederikson i Grey Swan AI,”sshtë e rëndësishme për të dy zhvilluesit e modeleve dhe krijuesit e standardeve, të turmat ose ndryshe, të komunikojnë rezultate qartë për ata që ndjekin, dhe të jenë të përgjegjshëm kur ata vënë në dyshim,”Hulumtimi i ri ofron një mjet të fuqishëm për t’i ndihmuar ata vetëm atë, duke i shtyrë industrinë drejt një llogaritjeje më të ndershme të aftësive të botës reale të AI-së.

Studimi: Standardet e AI me të meta të thella, mund të mbivlerësojnë performancën me 100%

Published by All Things Windows on July 5, 2025

Një studim i ri sfidon themelet e vlerësimit të AI

IT Info

Deepseek R1-0528: Firma gjermane lëshon versionin e modelit AI të Deepseek që shkon dy herë më shpejt

IT Info

Fairphone 6 fiton rezultatin perfekt të riparimit 10/10, tokat në ne me një kapje

IT Info

Xbox Manager këshillon stafin e Microsoft të pushuar për të marrë ndihmë nga AI, duke ndezur zemërim

Studimi: Standardet e AI me të meta të thella, mund të mbivlerësojnë performancën me 100%

Published by All Things Windows on July 5, 2025

Një studim i ri sfidon themelet e vlerësimit të AI

Related Posts

IT Info

Deepseek R1-0528: Firma gjermane lëshon versionin e modelit AI të Deepseek që shkon dy herë më shpejt

IT Info

Fairphone 6 fiton rezultatin perfekt të riparimit 10/10, tokat në ne me një kapje

IT Info

Xbox Manager këshillon stafin e Microsoft të pushuar për të marrë ndihmë nga AI, duke ndezur zemërim