A
lmarena, az UC Berkeley befolyásos chatbot aréna projektjéből származó induló vállalkozás 100 millió dollárt szerzett magfinanszírozással, értékelve egy bejelentett 600 millió dollárra. Házalap. A Capital Infúzió célja az AI modell értékelési platformjának forgalmazása és jelentős kibővítése. Az egyre bigráló modellek felépítéséhez a nehéz kérdés már nem az, hogy az AI-t is megteheti. Már több mint négyszáz modellértékeléssel és több mint hárommillió szavazattal rendelkezik, befolyásolva a technológiai óriások, például a Google, az Openai, a Meta és az XAI modelljeit. Ion Stoica, az Lmarena társalapítója és az UC Berkeley professzor hangsúlyozta a platform szerepét, kijelentve: „Az AI értékelés gyakran elmaradt a modellfejlesztés elől Venture
chatbot aréna kezdetben 2023 elején alakult ki az UC Berkeley Sky Computing Lab -n. Innovatív módszere magában foglalja a felhasználókat, hogy vakon összehasonlítják a két névtelen AI modell kimeneteit, a szavazatok rangsorolása az ELO besorolási rendszeren keresztül. Ez a megközelítés gyorsan a nyilvános ranglistáját befolyásos erőforrássá tette. A vezetés magában foglalja a közelmúltbeli UC Berkeley posztdoktori kutatókat, Anastasios Angelopoulos és Wei-Lin Chiang-t, Stoica professzor mellett, a Databricks társalapítója és a Bármelyik szemcséje. href=”https://a16z.com/announcing-our-Latest-open-source-ai-grants/”Target=”_ blank”> nyílt forráskódú AI támogatások , és AI infrastruktúra cég együtt. A Az Lmarena webhely béta verziója A felhasználói élmény javítása érdekében is elindult. Tudósok és etikai szakemberek. Központi aggodalomra ad okot, hogy az ilyen szavazási mechanizmusok valóban megragadják-e az értelmes modellt. Megjegyezte továbbá: „A chatbot aréna nem mutatta be, hogy az egyik output szavazása a másik felett valójában korrelál a preferenciákkal, de ezek definiálhatók.”
A kritikusok az eredmények téves értelmezésének lehetősége miatt is aggódnak, és az Asmelash Teka Hadgu a Lesan-ból javasolja, hogy a Labs használja ezeket a platformokat: „A túlzott állításokat”. Ezt az aggodalmat olyan viták fokozták, mint a Meta’s Llama 4 Maverick modell, ahol-amint a TechCrunch beszámolt, a vállalat egy speciálisan hangolt verziót készített, amely felülmúlta a később kiadott standardot. T
A fizetetlen felhasználói hozzájárulásokra való támaszkodás szintén etikai ellenőrzést vonzott; Kristine Gloria, korábban az Aspen Intézet, azt mondta a TechCrunch-nak, hogy az ilyen referenciaértékek „soha nem lehetnek az egyetlen mutató az értékeléshez”. Matt Frederikson, a Grey Swan AI egyetértett abban, hogy a nyilvános referenciaértékek „nem helyettesítik” a szigorú belső teszteléseket, és tanácsot adtak a fejlesztők és a benchmark készítőinek egyértelmű kommunikációjának. Wei-Lin Chiang társalapítója azt mondta a TechCrunch-nak, hogy”A közösségünk nincs itt önkéntesként vagy modelltesztőként.”Elmagyarázta, hogy a felhasználók az Lmarena-val kapcsolatba lépnek az AI interakció és a kollektív visszajelzések nyitott és átlátható környezetéért. Legyen elfogult a szolgáltató felé (vagy ellen), és hűen tükrözi a közösség preferenciáit. Anastasios Angelopoulos egy olyan elképzeléssel is megfogalmazta az Lmarena-t, mint mindenki számára, aki felfedezheti és összehasonlíthatja az AI-t. A tervek között szerepel a nyílt kutatás támogatásának fejlesztése és a speciális tesztelési arénák bevezetése, például a Webdev Arena, a Repochat Arena és a Search Arena. A jövőbeli projektek látásmodelleket, AI-ügynököket és AI vörös-csapat-gyakorlatokat céloznak meg. Üzleti modelljét illetően az ion stoica jelezte a