Nowy artykuł akademicki współautor badaczy z najlepszych uniwersytetów i Amazon dostarczyła ostrzeżenie dla branży AI: odniesienia, których używamy do pomiaru postępu, są zasadniczo wadliwe. Badanie, opublikowane w tym tygodniu, ujawnia, że ​​popularne metody oceny mogą błędnie ocenić prawdziwe możliwości agenta AI nawet o 100 procent.

Nowe badanie rzuca długie cień w stosunku do wpływowych tablic, które kierują miliardami inwestycji i rozwoju, szczególnie tych z platform takich jak Lmarena. Badania, współpraca między umysłami z UIUC, Stanford, MIT, Amazon i inni, kwestionują podstawę tego, jak oceniamy AI.

Autorzy argumentują, że wiele aktualnych testów „Agentic” AI-systemy wykonujące złożone, wieloetapowe zadania-wyniki z krytycznych problemów w ich projekcie i punktacji. Jak stwierdza artykuł: „Wiele istniejących porównań agencyjnych może źle wyświetlać wydajność AI do 100% z powodu problemów w konfiguracji zadań i projektowaniu nagrody…” To odkrycie sugeruje, że branża może gonić wskaźnik wskaźników.

papier , zatytułowany „ustanowienie najlepszych praktyk dla budynku benchmmarks,” identyfikuje dwa podstawowe porażki. Pierwszym z nich jest „Ważność wyników”, w której test nie potwierdza, czy AI naprawdę się powiodło. Drugi „Ważność zadania” oznacza, że ​​samo zadanie jest wadliwe, umożliwiające skróty lub trywialne rozwiązania. Na przykład

Papier podkreśla, w jaki sposób w niektórych testach porównawczych niepoprawna łatka kodu może nadal przejść apartament testowy, tworząc fałszywie dodatni. W innym trywialny agent, który nic nie robi, może z powodzeniem przejść 38% zadań, przewyższając bardziej wyrafinowane modele w niektórych wskaźnikach.

Te wady mają namacalne konsekwencje. Badanie wykazało, że błędy punktacji mogą napompować zgłoszone wyniki agenta nawet 100% w stosunku do jego prawdziwych umiejętności. Efekt dalszy jest znaczącym zniekształceniem konkurencyjnych tabeli liderów, w których naukowcy stwierdzili, że agenci mogą zostać błędnie błędne o 40 procent. To kwestionuje ważność samych rankingów, które laboratorium od Google do Openai używają do żądania wyższości i kierowania ich wysiłkami badawczymi.

Aby rozwiązać to, autorzy wprowadzili agentową listę kontrolną odniesienia (ABC). Ramy te zapewniają zestaw rygorystycznych wytycznych dotyczących tworzenia bardziej naukowo solidnych ocen. Celem jest wprowadzenie dyscypliny w proces, który stał się wysokim stawką, i często krytykował Sport Spectator.

Wzrost i kontrola bliźniaków Crowdsourced

Nigdzie nie jest bardziej intensywna niż na Lmarena, platforma wcześniej znana jako Chatbot Arena. Uruchomiony z UC Berkeley’s Sky Computing Lab, szybko stał się podstawowym elementem branżowym. Jego nowatorskie podejście wykorzystuje Crowdsourced, ślepe porównania modeli, w celu wygenerowania tablicy liderów opartej na ELO.

Wpływ tego systemu wzrósł wykładniczo, a kulminacją jest niedawna runda finansowania o wartości 100 milionów dolarów, która wyceniała nową firmę na 600 milionów dolarów. Współzałożyciel Lmareny, Anastasios N. Angelopoulos, opisał ambitny cel firmy dla platformy, stwierdzając: „W światowym wyścigach w celu budowy modeli wieków ciężkich, trudne pytanie nie jest już tym, co może zrobić poważnie. Krytycy twierdzą, że prosty głosowanie w preferencjach nie jest wiarygodną miarą jakości sztucznej inteligencji. Emily Bender, lingwistyka na uniwersytecie w Waszyngtonie, wyraziła ten sceptycyzm wobec TechCrunch.

Bender stwierdził: „Aby być ważnym, punkt odniesienia musi zmierzyć coś konkretnego, i musi mieć konstruowanie ważności-to znaczy, że istnieje dowód na to, że konstrukt zainteresowania jest dobrze zdefiniowany…” Ona nie zauważa, że ​​„chatbot nie musi pokazać tego, że dla jednej z nich jest kolejna produkcja. Z preferencjami można je zdefiniować. „Współzałożycielka LMarena, Wei-Lina, Wei-Lin, odepchnęła tę charakterystykę, mówiąc„ nasza społeczność nie ma tutaj jako wolontariuszy lub testerów modeli. Forward

Nowa ramy ABC ma być antidotum na tę niepewność. Zapewnia konkretny zestaw najlepszych praktyk, obejmujący wszystko, od zapewnienia, że ​​zadania są odpowiednio zaprojektowane w celu sprawdzenia, czy wskaźniki oceny są solidne i nie są łatwe. Zapewnia to nie tylko, że test jest sprawiedliwy, a wyniki dokładne, ale także ograniczenia porównawcze są wyraźnie przekazywane użytkownikom.

Autorzy artykułu wykazali wartość listy kontrolnej, stosując ją do benchu ​​CVE, co jest punktem odniesienia bezpieczeństwa cybernetycznego. Wdrażając zasady ABC, zmniejszyli wyniki wskaźnika wzorcowego o znaczne 33 procent. Zapewnia to wyraźny dowód koncepcji jego skuteczności.

Ten ruch w kierunku standaryzacji i rygorystycznej jest postrzegany przez wielu tak długo. Ion Stoica, współzałożyciel Lmarena i profesor Berkeley, potwierdził lukę, którą platforma ma na celu wypełnienie, stwierdzając: „Ocena AI często pozostawała w tyle za rozwojem modelu. Lmarena zamyka tę lukę, stawiając rygorystyczną, oparta na społeczności naukę w centrum.”

Balansowanie wpływu w integralną część w branży szybkiej mowerskiej

, zależność od crowdsourcingu, często niezapłacona, niezapłacona, informacyjna informacja o użytkownikach będzie kontynuowana przez etyczne pytania. Kristine Gloria, wcześniej Aspen Institute, ostrzegła, że ​​takie badania „nigdy nie powinny być jedynym wskaźnikiem oceny” i powinna być jednym narzędziem wśród wielu.

Ostatecznie odpowiedzialność spada zarówno na twórców porównawczych, jak i laboratorium AI, które ich używają. Jak doradził Matt Frederikson z Gray Swan Ai: „Ważne jest, aby zarówno deweloperzy modelowym, jak i twórcy porównawcze, crowdsourcing lub w inny sposób, aby wyraźnie przekazać wyniki tym, którzy podążają, i reagują na zakwestionowanie:„ Nowe badania stanowi potężne narzędzie, które pomogą im zrobić, po prostu popychając branżę w kierunku bardziej uczciwego rozliczania rzeczywistości AI.

Categories: IT Info