Lmarena, startup wyrzucony z wpływowego projektu Chatbot Arena w UC Berkeley, zabezpieczył 100 milionów dolarów finansowania nasion, wspierając swoją wycenę zgłoszonym 600 milionom dolarów.
Runda finansowania jest prowadzona przez Andreessen Horowitz i UC Investments Investments i UC Investments Investments i UC Inwestycje i UC, i UC Inwestycje i UC Investment i UC Inwesty Fundusz House. Infuzja kapitałowa ma na celu komercjalizację i znaczne rozszerzenie platformy oceny modelu AI.
Rozwój ten podkreśla rosnące znaczenie i wsparcie finansowe narzędzi zaprojektowanych do oceny możliwości sztucznej inteligencji, oferując kluczowe informacje dla programistów i branży.
LMarena, misja, jak stwierdzili współczynnik i dyrektor generalny, w którym stwierdził pytania krytyczne: Buduj ewentualne modele, trudne jest to, co może zrobić, to jak dobrze to zrobić w przypadku konkretnych przypadków użycia, a dla kogo budujemy infrastrukturę, aby odpowiedzieć na te krytyczne pytania. Zrobił znak, z ponad czterystu modeli ocen i obsadzonych ponad trzech milionów głosów, wpływając na modele gigantów technologicznych, takich jak Google, Openai, Meta i Xai. Ion Stoica, współzałożyciel Lmarena i UC Berkeley, podkreślili rolę platformy, stwierdzając: „Ocena AI często pozostawała w tyle za opracowaniem modelu. Lmarena zamyka lukę, stawiając rygorystyczną, oparta na społeczności naukę w centrum. To jest odświeżenie do bycia częścią zespołu, który prowadzi długoterminową integralność w przestrzeni. Szybko. Venture
Chatbot Arena początkowo pojawiła się na początku 2023 r. Z UC Berkeleya Laboratorium komputerowe Sky . Jego innowacyjna metoda polega na ślepym porównywaniu wyników z dwóch anonimowych modeli AI, z głosami generującymi rankingi za pośrednictwem systemu oceny ELO. Podejście to szybko uczyniło swoją publiczną tablicę liderów wpływowych zasobów.
Przejście na formalną firmę Arena Intelligence Inc., działającą jako Lmarena, miało zabezpieczyć zasoby dla znaczących aktualizacji. Przywództwo obejmuje najnowszych badaczy podoktoranckich UC Berkeley Anastasios Angelopoulos i Wei-Lin Chiang, wraz z profesorem Stoica, współzałożycielem Databricks i Any Scale.
Projekt otrzymał poparcie od uniwersyteckich dotacji i darowizn od podmiotów z podmiotów Google Kaggle Google, a także resusen Horowitz. href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”target=”_ blank”> grants ai open-source i ai infrastruktura wersja beta witryny Lmarena została również uruchomiona w celu poprawy doświadczenia użytkownika.
Prowadzenie analizy metodologicznej
Pomimo wzrostu rosnącego wpływu Lmareny i podobnego Crowdsourced Ai Benchmars FACED AI TACKMAMARS AI TACKMAMARKA i specjaliści ds. Etyki. Głównym problemem jest to, czy takie mechanizmy głosowania naprawdę uchwycają znaczące cechy modelowe.
Emily Bender, profesor języka lingwistycznego z University of Washington, wyrażał sceptycyzm wobec technologii, twierdząc, że „aby być ważnym, punkt odniesienia musi zmierzyć coś konkretnego, i musi skonstruować ważność-to znaczy musi być dowód, że konstrukcja jest dobrze zdefiniowana, a faktycznie zmierzanie konstrukcji. Ponadto skomentowała: „Chatbot Arena nie wykazała, że głosowanie na jedną wynik w porównaniu z inną faktycznie koreluje z preferencjami, jednak można je zdefiniować.”
Krytycy martwią się również o potencjał błędnej interpretacji wyników, a Asmelash Teka Hadgu z Lesan sugeruje technice, że laboratorium mogą korzystać z tych platform, aby „promować wypowiedziane roszczenia”. Ta troska została wzmocniona przez kontrowersje, takie jak model Maverick Lame 4 Maverick, gdzie, jak donosi TechCrunch, firma przejęła specjalnie dostrojoną wersję, która przewyższyła standardową wydaną później. T
Poleganie na niezapłaconym wkładom użytkowników również naruszył kontrolę etyczną; Kristine Gloria, wcześniej Aspen Institute, powiedziała Techcrunch, że takie badania „nigdy nie powinny być jedynym miarą oceny”. Matt Frederikson z Gray Swan AI zgodził się, że publiczne testy porównawcze „nie są substytutem” rygorystycznych testów wewnętrznych i doradzał wyraźną komunikację od deweloperów i twórców testów porównawczych.
Zobowiązanie do neutralności i przyszłej mapy drogowej
Zespół LMareny działa aktywnie zajmując się tymi obawami. Współzałożyciel Wei-Lin Chiang powiedział TechCrunch: „Nasza społeczność nie ma tutaj jako wolontariuszy lub modeli testerów”. Wyjaśnił, że użytkownicy angażują się z LMareną w jej otwartym i przejrzystym środowisku w celu interakcji AI i zbiorowej informacji zwrotnej.
Firma publicznie ogłosiła swoje zaangażowanie w Fairness w blogu
Patrząc w przyszłość, Lmarena zamierza znacząco poszerzyć działalność oceny. Plany obejmują zwiększenie wsparcia otwartych badań i wprowadzenie specjalistycznych areny testowania, takich jak Arena WebDev, Repochat Arena i Search Arena. Przyszłe projekty będą ukierunkować modele wizji, agentów AI i ćwiczenia z czerwonymi zespołami AI. Jeśli chodzi o model biznesowy, Ion Stoica wskazał Bloomberg że jedna potencjalna alkoho platforma.