LMArena, a startup spun out from UC Berkeley’s influential Chatbot Arena project, has secured $100 million in seed funding, propelling its valuation to a reported $600 million.

The funding round is led by Andreessen Horowitz and UC Investments, with notable participation from Lightspeed Venture Partners, Felicis Ventures, Kleiner Perkins, Laude Ventures, and The House Fonds. De Capital Infusion is bedoeld om het AI-modelevaluatieplatform te commercialiseren en aanzienlijk uit te breiden.

Deze ontwikkeling onderstreept het groeiende belang en de financiële ondersteuning van tools die zijn ontworpen om kunstmatige intelligentie-mogelijkheden te beoordelen, het aanbieden van cruciale inzichten voor ontwikkelaars en de industrie in een wereldwijde vragen:”In een Wereldroeis, is in een Wereldvragen om te gaan met een wereldwijde vragen. Ever-Bigger-modellen, de harde vraag is niet langer wat AI kan doen. In plaats daarvan kan het doen voor specifieke gebruiksscenario’s, en voor wie we de infrastructuur bouwen om deze kritieke vragen te beantwoorden. Een stempel, met meer dan vierhonderd modelevaluaties en meer dan drie miljoen uitgebrachte stemmen, die modellen van tech-reuzen zoals Google, Openai, Meta en XAI beïnvloeden. Ion Stoica, mede-oprichter van Lmarena en UC Berkeley Professor, benadrukte de rol van het platform en verklaarde:”AI-evaluatie is vaak achtergebleven bij modelontwikkeling. Lmarena sluit die kloof door rigoureuze, gemeenschapsgestuurde wetenschap in het centrum te plaatsen. Het is verfrissend om een ​​deel te maken van een team dat leidt met lange termijn in een ruimte in een ruimte in een ruimtevaart. Venture

Chatbot Arena ontstond aanvankelijk begin 2023 uit UC Berkeley’s Sky Computing Lab . De innovatieve methode omvat gebruikers die blindelings output van twee anonieme AI-modellen vergelijken, met stemmen die ranglijsten genereren via een ELO-beoordelingssysteem. Deze aanpak maakte van zijn openbare leaderboard snel een invloedrijke bron. Het leiderschap omvat recente UC Berkeley postdoctorale onderzoekers Anastasios Angelopoulos en Wei-Lin Chiang, naast professor Stoica, een mede-oprichter van databricks en AnyScale.

PRAVIER aan deze zaadronde ontving het project ondersteuning van universitaire subsidies en donaties van entiteiten inclusief entiteit href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”target=”_ blank”> open-source ai subsidies , en ai infrastructuurbedrijf samen ai > samen ai >. A Beta-versie van de Lmarena-website werd ook gelanceerd om de gebruikerservaring te verbeteren.

Navigeren Methodologisch scrutiny

ondanks de groeien Ethische specialisten. Een centrale zorg is of dergelijke stemmechanismen echt zinvolle modelkwaliteiten vastleggen.

Emily Bender, een professor van de University of Washington Linguistics, heeft scepsis uitgesproken voor TechCrunch, die beweren,”om geldig te zijn, een benchmark nodig heeft om iets specifieks te meten, en het moet een constructie hebben om de constructie te hebben.”Ze merkte verder op:”Chatbot Arena heeft niet aangetoond dat stemmen voor de ene output boven de andere daadwerkelijk correleert met voorkeuren, maar ze kunnen worden gedefinieerd.”

Critici maken zich ook zorgen over het potentieel voor een verkeerde interpretatie van resultaten, met Asmelash Teka Hadgu van Lesan suggereren dat labs deze platforms kunnen gebruiken om te promoten.”Deze zorg werd versterkt door controverses zoals het Lama 4 Maverick-model van Meta, waar, zoals TechCrunch meldde, het bedrijf een speciaal afgestemde versie benchmarkte die beter presteerde dan de standaard die later werd uitgebracht. T

Hij is afhankelijk van onbetaalde gebruikersbijdragen, heeft ook ethisch onderzoek getrokken; Kristine Gloria, voorheen van het Aspen Institute, vertelde TechCrunch dat dergelijke benchmarks”nooit de enige metriek voor evaluatie mogen zijn.”Matt Frederikson van Gray Swan AI was het ermee eens dat openbare benchmarks”geen vervanging zijn”voor rigoureuze interne testen en adviseerde duidelijke communicatie van ontwikkelaars en benchmark-makers.

toewijding aan neutraliteit en toekomstige routemap

Lmarena’s team is actief aan te pakken deze zorgen. Mede-oprichter Wei-Lin Chiang vertelde TechCrunch:”Onze gemeenschap is hier niet als vrijwilligers of modeltesters.”Hij legde uit dat gebruikers zich bezighouden met Lmarena voor zijn open en transparante omgeving voor AI-interactie en collectieve feedback.

Het bedrijf heeft publiekelijk zijn inzet voor billijkheid verklaard in een _ blank”> lmarena BLOEK POST , onze leaderboard. Wees bevooroordeeld voor (of tegen) elke provider en zal de voorkeuren van onze gemeenschap door ontwerp weerspiegelen.”Anastasios Angelopoulos heeft ook een visie voor Lmarena gearticuleerd als een plek voor iedereen om AI te verkennen en te vergelijken.

Ik kijk uit. Lmarena is van plan zijn evaluatieactiviteiten aanzienlijk te verbreden. Plannen omvatten het verbeteren van ondersteuning voor open onderzoek en het introduceren van gespecialiseerde testarena’s zoals WebDev Arena, Repochat Arena en Search Arena. Toekomstige projecten zullen zich richten op visie-modellen, AI-agenten en AI rood-teamoefeningen. Regarding its business model, Ion Stoica indicated to Bloomberg that one potential avenue involves charging companies for model evaluations on the platform.

Categories: IT Info