LMArena, a startup spun out from UC Berkeley’s influential Chatbot Arena project, has secured $100 million in seed funding, propelling its valuation to a reported $600 million.

The funding round is led by Andreessen Horowitz and UC Investments, with notable participation from Lightspeed Venture Partners, Felicis Ventures, Kleiner Perkins, Laude Ventures, and The House Fond. Infuzia de capital își propune să comercializeze și să extindă semnificativ platforma de evaluare a modelului AI.

Această dezvoltare subliniază importanța crescândă și susținerea financiară a instrumentelor concepute pentru a evalua capacitățile de inteligență artificială, oferind perspective cruciale pentru dezvoltatori și industrie. Construiți modele mereu de bigger, întrebarea grea nu mai este ceea ce poate face. a făcut o notă, cu peste patru sute de evaluări de model și peste trei milioane de voturi, influențând modele de la giganți tehnologici precum Google, OpenAI, Meta și Xai. Ion Stoica, co-fondatorul Lmarena și profesorul UC Berkeley, au subliniat rolul platformei, afirmând: „Evaluarea AI a rămas adesea în spatele dezvoltării modelului. Lmarena închide acest decalaj, punând știință riguroasă, condusă de comunitate, în centru. Venture

Chatbot Arena a apărut inițial la începutul anului 2023 de la UC Berkeley Sky Computing Lab . Metoda sa inovatoare implică utilizatorii care compară orbește rezultatele de la două modele AI anonime, cu voturi care generează clasamente printr-un sistem de rating ELO. Această abordare a făcut rapid clasamentul său public o resursă influentă.

Tranziția către o companie formală, Arena Intelligence Inc., care operează ca Lmarena, a fost destinată să asigure resurse pentru actualizări semnificative. The leadership includes recent UC Berkeley postdoctoral researchers Anastasios Angelopoulos and Wei-Lin Chiang, alongside Professor Stoica, a co-founder of Databricks and Anyscale.

Prior to this seed round, the project received support from university grants and donations from entities including Google’s Kaggle, Andreessen Horowitz via its open-source ai subvenții , și firma de infrastructură AI împreună ai . A Versiunea beta a site-ului Lmarena a fost, de asemenea, lansată pentru a îmbunătăți experiența utilizatorului.

Navigarea navigării metodologice de control al metodologiei

În ciuda influenței sale în creștere, a acadenei și a unei linii similare, a acadelor aacemice aacemics aac. și specialiști în etică. A central concern is whether such voting mechanisms truly capture meaningful model qualities.

Emily Bender, a University of Washington linguistics professor, voiced skepticism to TechCrunch, asserting, “To be valid, a benchmark needs to measure something specific, and it needs to have construct validity — that is, there has to be evidence that the construct of interest is well-defined and that the measurements actually relate to the Construiți.”Ea a mai comentat: „Chatbot Arena nu a arătat că votarea pentru o ieșire peste alta se corelează de fapt cu preferințele, cu toate acestea, acestea pot fi definite.”

Criticii își fac griji, de asemenea, potențialul interpretării greșite a rezultatelor, cu Asmelash Teka Hadgu de Lesan care sugerează tehnologiei că laboratoarele ar putea folosi aceste platforme pentru a „promova revendicările exagerate”. Această preocupare a fost amplificată prin controverse precum modelul Maverick Llama 4 de la Meta, unde, după cum a raportat TechCrunch, compania a evaluat o versiune special reglată care a depășit standardul lansat ulterior. T

El dependența de contribuțiile utilizatorilor neplătite a atras și un control etic; Kristine Gloria, fostă a Institutului Aspen, a declarat pentru TechCrunch că astfel de repere „nu ar trebui să fie niciodată singura măsură pentru evaluare”. Matt Frederikson de la Gray Swan AI a fost de acord că reperele publice „nu sunt un substitut” pentru testări interne riguroase și a sfătuit o comunicare clară a dezvoltatorilor și creatorilor de referință.

Angajamentul față de neutralitate și viitorul foaie de parcurs

Echipa Lmarena abordează activ aceste probleme. Co-fondatorul Wei-Lin Chiang a declarat pentru TechCrunch: „Comunitatea noastră nu este aici ca voluntari sau testeri de model”. El a explicat că utilizatorii se angajează cu Lmarena pentru mediul său deschis și transparent pentru interacțiunea AI și feedback-ul colectiv.

Compania și-a declarat public angajamentul față de corectitudine într-un LMarena Blogy Posta ,”,”Fii părtinitor față de (sau împotriva) oricărui furnizor și va reflecta cu fidelitate preferințele comunității noastre prin proiectare. Anastasios Angelopoulos a articulat, de asemenea, o viziune pentru Lmarena ca loc pentru toată lumea să exploreze și să compare AI.

Învățând cu nerăbdare, Lmarena intenționează să-și extindă semnificativ activitățile de evaluare. Planurile includ îmbunătățirea sprijinului pentru cercetarea deschisă și introducerea de arene de testare specializate, cum ar fi Webdev Arena, Repochat Arena și Search Arena. Proiectele viitoare vor viza modele de viziune, agenți AI și exerciții AI Red-Teaming. În ceea ce privește modelul său de afaceri, Ion Stoica a indicat pentru Bloomberg Platforma.

Categories: IT Info