Een groeiend koor van academici en AI Ethics-specialisten werpt twijfel over de betrouwbaarheid en billijkheid van populaire crowdsourced platforms die worden gebruikt om kunstmatige intelligentiemodellen te rangschikken, die direct een methode uitdaagt die steeds meer de voorkeur geeft door technische reuzen zoals Openai, Google en Meta.
In het centrum van dit debat staat Lmarena, het platform dat voorheen bekend staat als Chatbot Arena, wiens head-to-head vergelijkingssysteem invloedrijk is geworden, maar gezichten gerichte vragen over de wetenschappelijke basis van de wetenschappelijke aard en de onbetaalde arbeid die het drijft, duiden op de AI-onderzoeksgemeenschap. AI-modellen en het selecteren van de voorkeursuitgang. Deze stemmen genereren ranglijsten met behulp van een ELO-beoordelingssysteem , een methode die gewoonlijk wordt gebruikt in schaken om relatieve vaardigheden te schatten. src=”https://winbuzzer.com/wp-content/uploads/2025/04/lmarena.jpg”>
Dit openbare leaderboard werd snel een go-to-resource na de lancering in het begin van 2023 door onderzoekers van UC Berkeley’s Sky Computing Lab , het aantrekken van een miljoen maandelijkse bezoekers en dienen als een testveld, soms zelfs voor niet-uitgebrachte modellen.
De behoefte aan middelen herkennen, het academische team-geleid door recente UC Berkeley Postdoctoral onderzoekers wei-lin chiang , naast uc Berkeley Professor en opmerkelijke technische ondernemer ion stoica (mede-oprichter van Databricks en AnyScale)-gevestigde Arena Intelligence Inc. op 18 april.
opererend onder het merk Lmarena, wil het nieuwe bedrijf de financiering voor uitbreiding beveiligen voor uitbreiding, het worden van”worden een bedrijf zal de middelen geven om Lmarena te verbeteren over wat het vandaag is.”Dit volgde op de eerste ondersteuning van subsidies en donaties door organisaties, waaronder het Kaggle-platform van Google, durfkapitaalbedrijf Andreessen Horowitz en ai infrastructuurbedrijf samen ai . Samenvallend met de opname, werd een nieuwe bèta-website gelanceerd op beta.lmarena.ai , gericht op het verbeteren van snelheid en gebruikerservaring.
meten wat belangrijk is? Geldigheid onder controle
Een centrale kritiek onderzoekt of Lmarena’s crowdsourced stemmen echt zinvolle modelkwaliteiten beoordeelt of de echte gebruikersvoorkeur robuust weergeeft. Emily Bender, een professor aan de University of Washington Linguïstiek, benadrukte zorgen over de onderliggende methodologie van de benchmark in een verklaring aan TechCrunch.
“Om geldig te zijn, moet een benchmark iets specifieks meten en het moet een constructie hebben van de constructie,”BENDE-evaluatie”BENDE ACTUCT.
Ze merkte op dat een gebrek aan bewijs aantoont dat de methode van Lmarena effectief de voorkeur vastlegt en verklaart:”Chatbot Arena heeft niet aangetoond dat stemmen voor de ene output boven de andere daadwerkelijk correleert met voorkeuren, maar ze kunnen worden gedefinieerd.”Deze huidige kritiek voortbouwend op bestaande controle waarmee het platform werd geconfronteerd met betrekking tot de subjectiviteit van stemmen, potentiële demografische vooroordelen in zijn gebruikersbestand, datasettransparantie en verschillende evaluatievoorwaarden voor verschillende modelsypen.
zorgen zijn van de manier waarop resultaten kunnen worden geïnterpreteerd of mogelijk verkeerd worden gepresenteerd. Asmelash Teka Hadgu, mede-oprichter van AI-firma Lesan, suggereerde dat labs kunnen worden”gecoöpteerd”om platforms zoals Lmarena te gebruiken om”overdreven claims te promoten”. Hij noemde de controverse rond het Lama 4 Maverick-model van Meta, waar het bedrijf werd bekritiseerd voor het benchmarking van een specifiek afgestemde versie die naar verluidt de standaardversie overtrof die uiteindelijk aan het publiek werd uitgebracht. HADGU-voorstanders van dynamische, onafhankelijk beheerde benchmarks op maat gemaakt van specifieke professionele domeinen, met behulp van betaalde experts.
De ethiek van vrijwilligersevaluatie
De afhankelijkheid van het platform op onbetaalde gebruikersbijdragen trekt ook ethisch onderzoek. Kristine Gloria, voorheen van het Aspen Institute, trok parallellen met de vaak exploitatieve databengelegenheidsindustrie, een probleem waar sommige laboratoria zoals Openai eerder over stonden. Terwijl hij waarde ziet in diverse perspectieven, beweert Gloria dat crowdsourced benchmarks”nooit de enige metriek moeten zijn voor evaluatie”en het risico onbetrouwbaar te worden.
Matt Frederikson, CEO van Gray Swan AI, die crowdsourcing voor AI Red Teaming, toegezegd die openbare meegeslepen”niet een substituut”voor interne testen”voor interne testen”voor interne analyse van de expert.”Het is belangrijk voor zowel modelontwikkelaars als benchmark-makers, crowdsourced of anderszins, om resultaten duidelijk te communiceren aan degenen die volgen en reageren wanneer ze in twijfel worden getrokken,”adviseerde Frederikson.
Lmarena verdedigt zijn rol en kijkt vooruit
lmarena mede-oprichter Wei-lin Wei-lin Wei-Lin Wei-Lin Wei-Lin Wei-Lin Wei-Lin Wei-Lin Wei-Lin-pushes, het doel van het platform, positioneert het platformverschil.”Onze community is hier niet als vrijwilligers of modeltesters,”vertelde Chiang TechCrunch.
“Mensen gebruiken LM Arena omdat we hen een open, transparante plek geven om in contact te komen met AI en collectieve feedback te geven. Zolang het leaderboard de stem van de gemeenschap weerspiegelt, verwelkomen we het. Fouten, waaruit blijkt dat Lmarena het beleid voor eerlijkheid heeft bijgewerkt. Mede-oprichter Anastasios Angelopoulos heeft context toegevoegd aan hun doelen en verklaarde:”Onze visie is dat dit een plek zal blijven waar iedereen op internet kan komen chatten en AI kunnen gebruiken, verschillende providers vergelijken, enzovoort.”
Dit list deze op de de openbare verklaring van het bedrijf :”Ons leaderboard zal nooit bevooroordeeld zijn voor (of tegen) een provider, en zal trouw weerspiegelen van de voorkeuren van onze gemeenschap door ontwerp. Het zal wetenschapgestuurd zijn.”
als Arena Intelligence Inc. zoekt financiering en definieert het bedrijfsmodel voor de evaluatie-het is een brede expansie van grote taalmodel. Specifieke initiatieven zijn onder meer WebDev Arena, Repochat Arena en Search Arena, met toekomstige plannen op visie-modellen, AI-agenten en toegewijde AI-rood-teamomgevingen. Deze uitbreiding komt aan te midden van een bredere industriële discussie over evaluatiemethoden, een punt dat wordt toegewezen door cijfers zoals Openrouter CEO Alex Atallah, die alleen open testen overeenkwam”is niet voldoende.”