lmarena, isang startup na lumabas mula sa maimpluwensyang proyekto ng UC Berkeley, na nakakuha ng $ 100 milyon sa pagpopondo ng binhi, na nagtataguyod ng pagpapahalaga sa isang naiulat na $ 600 milyon. Pondo. Ang pagbubuhos ng kapital ay naglalayong i-komersyal at makabuluhang palawakin ang platform ng pagsusuri ng modelo ng AI. Upang mabuo ang mga modelo ng Bigger, ang mahirap na tanong ay hindi na magagawa. Gumawa na ng isang marka, na may higit sa apat na daang mga pagsusuri ng modelo at higit sa tatlong milyong mga boto na cast, na nakakaimpluwensya sa mga modelo mula sa mga higanteng tech tulad ng Google, Openai, Meta, at Xai. Ang Ion Stoica, co-founder ng Lmarena at propesor ng UC Berkeley, ay binigyang diin ang papel ng platform, na nagsasabi,”Ang pagsusuri ng AI ay madalas na nahihirapan sa pag-unlad ng modelo. Ang Lmarena ay nagsasara na ang agwat sa pamamagitan ng paglalagay ng mahigpit, agham na hinihimok ng komunidad sa gitna. Ang pag-refresh nito ay maging bahagi ng isang koponan na humahantong sa pang-matagalang integridad sa isang puwang na gumagalaw sa mabilis na ito. Ang Venture Ang makabagong pamamaraan nito ay nagsasangkot ng mga gumagamit nang walang taros na paghahambing ng mga output mula sa dalawang hindi nagpapakilalang mga modelo ng AI, na may mga boto na bumubuo ng mga ranggo sa pamamagitan ng isang sistema ng rating ng ELO. Ang pamamaraang ito ay mabilis na ginawa ang pampublikong leaderboard ng isang maimpluwensyang mapagkukunan. Kasama sa pamumuno ang kamakailang mga mananaliksik ng UC Berkeley postdoctoral na Anastasios Angelopoulos at Wei-lin Chiang, kasabay ni Propesor Stoica, isang co-founder ng databricks at anyscale. href=”https://a16z.com/announcing-our-latest-open-source-ai-lants/”target=”_ blangko”> open-source ai grants , at ai infrastructure firm beta bersyon ng website ng Lmarena ay inilunsad din upang mapagbuti ang karanasan ng gumagamit. Mga espesyalista sa akademiko at etika. Ang isang pangunahing pag-aalala ay kung ang mga mekanismo ng pagboto ay tunay na nakakakuha ng makabuluhang mga katangian ng modelo. Sinabi pa niya,”Hindi ipinakita ng Chatbot Arena na ang pagboto para sa isang output sa isa pang aktwal na nakakaugnay sa mga kagustuhan, gayunpaman maaari silang tukuyin.”Ang pag-aalala na ito ay pinalakas ng mga kontrobersya tulad ng Meta’s Llama 4 Maverick Model, kung saan, tulad ng iniulat ng TechCrunch, ang kumpanya ay naka-benchmark ng isang espesyal na nakatutok na bersyon na naipalabas ang pamantayang pinalaya. T
Si Kristine Gloria, na dating Aspen Institute, ay nagsabi sa TechCrunch na ang mga benchmark na”hindi dapat ang tanging sukatan para sa pagsusuri.”Si Matt Frederikson ng Grey Swan Ai ay nagkakasundo na ang mga pampublikong benchmark ay”hindi kapalit”para sa mahigpit na panloob na pagsubok at pinapayuhan ang malinaw na komunikasyon mula sa mga tagalikha at mga tagalikha ng benchmark. Sinabi ng co-founder na si Wei-lin Chiang sa TechCrunch,”Ang aming komunidad ay wala rito bilang mga boluntaryo o modelo ng mga tester.”Ipinaliwanag niya na ang mga gumagamit ay nakikipag-ugnayan sa Lmarena para sa bukas at transparent na kapaligiran para sa pakikipag-ugnay sa AI at kolektibong puna. Huwag kailanman maging bias patungo sa (o laban sa) anumang tagapagbigay ng serbisyo, at matapat na sumasalamin sa mga kagustuhan ng aming komunidad sa pamamagitan ng disenyo. Ang Anastasios Angelopoulos ay nagpahayag din ng isang pangitain para sa Lmarena bilang isang lugar para sa lahat upang galugarin at ihambing ang AI. Kasama sa mga plano ang pagpapahusay ng suporta para sa bukas na pananaliksik at pagpapakilala ng mga dalubhasang arena sa pagsubok tulad ng WebDev Arena, Repochat Arena, at arena sa paghahanap. Ang mga hinaharap na proyekto ay target ang mga modelo ng pangitain, mga ahente ng AI, at mga pagsasanay sa red-teaming ng AI. Tungkol sa modelo ng negosyo nito, ipinahiwatig ni Ion Stoica sa