LMarena, una startup che si è trasformata dall’influente progetto di Chatbot Arena di UC Berkeley, ha ottenuto $ 100 milioni in finanziamenti seed, spingendo la sua valutazione a $ 600 milioni segnalati. Fondo domestico. L’infusione di capitale mira a commercializzare ed espandere in modo significativo la piattaforma di valutazione del modello AI.

Questo sviluppo sottolinea la crescente importanza e il sostegno finanziario degli strumenti progettati per valutare le capacità di intelligenza artificiale, offrendo informazioni cruciali per gli sviluppatori e l’industria. Per costruire modelli sempre alla base, la domanda difficile non è più ciò che può fare l’IA. Ha già lasciato un segno, con oltre quattrocento valutazioni di modelli e oltre tre milioni di voti espressi, influenzando i modelli di giganti tecnologici come Google, Openai, Meta e XAI. Ion Stoica, co-fondatrice di Lmarena e professore di UC Berkeley, ha sottolineato il ruolo della piattaforma, affermando:”La valutazione dell’IA è spesso rimasta indietro rispetto allo sviluppo del modello. Lmarena colpisce quel divario mettendo una scienza rigorosa e guidata dalla comunità. Venture

Chatbot Arena inizialmente è emersa all’inizio del 2023 da UC Berkeley Sky Computing Lab . Il suo metodo innovativo prevede gli utenti che confrontano ciecamente i risultati di due modelli AI anonimi, con voti che generano classifiche tramite un sistema di valutazione ELO. Questo approccio ha rapidamente reso la sua classifica pubblica una risorsa influente.

La transizione verso una società formale, Arena Intelligence Inc., operante come LMarena, aveva lo scopo di garantire risorse per aggiornamenti significativi. La leadership comprende i recenti ricercatori post-dottorato di UC Berkeley Anastasios Angelopoulos e Wei-Lin Chiang, insieme al professor Stoica, co-fondatore di Databricks e Anyscale.

Prima di questo round di semi href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”target=”_ blank”> open-source ai sovvenzioni e AI infrastruttura di società La versione beta del sito Web LMarena è stata anche lanciata per migliorare l’esperienza dell’utente.

navigare in modo metodologico

Nonostante la sua crescente influenza, LMARENA ESCUNACE AI BANCHMARS CRUCCHARDS CRUSCITY MOTODOOLDS MOTODOMICHE MOTODOMICA MOTODOMICA. Speciali accademici ed etici. Una preoccupazione centrale è se tali meccanismi di voto catturino veramente qualità modelli significative.

Emily Bender, una professoressa di linguistica dell’Università di Washington, ha espresso lo scetticismo a TechCrunch, affermando: “Essere validi, un punto di riferimento deve misurare qualcosa di specifico, e deve essere costruito in modo specifico. Ha inoltre commentato:”Chatbot Arena non ha dimostrato che votare per un output su un altro effettivamente correlato alle preferenze, tuttavia possono essere definiti.”

I critici si preoccupano anche del potenziale di interpretazione errata dei risultati, con Asmelash Teka Hadgu di Lesan che suggerisce di Techcrunch che i laboratori potrebbero usare queste piattaforme per”promuovere le richieste esagerate”.”Questa preoccupazione è stata amplificata da controversie come il modello Maverick Llama 4 di Meta, in cui, come riferito da TechCrunch, la società ha confrontato una versione appositamente sintonizzata che ha sovraperformato quella standard rilasciata. T

affidamento su contributi per l’utente non retribuiti ha anche tratto un controllo etico; Kristine Gloria, precedentemente dell’Aspen Institute, ha detto a TechCrunch che tali parametri di riferimento”non dovrebbero mai essere l’unica metrica per la valutazione”. Matt Frederikson di Gray Swan AI ha concordato che i benchmark pubblici”non sono un sostituto”per test interni rigorosi e ha consigliato una chiara comunicazione da parte degli sviluppatori e creatori di riferimento. Il co-fondatore Wei-Lin Chiang ha dichiarato a TechCrunch:”La nostra comunità non è qui come volontari o tester modello”. Ha spiegato che gli utenti si impegnano con LMarena per il suo ambiente aperto e trasparente per l’interazione AI e il feedback collettivo.

La compagnia ha dichiarato pubblicamente il suo impegno per l’equità in un

In attesa, Lmarena intende ampliare in modo significativo le sue attività di valutazione. I piani includono il miglioramento del supporto per la ricerca aperta e l’introduzione di arene di test specializzate come WebDev Arena, Repochat Arena e Search Arena. I progetti futuri prendono di mira modelli di visione, agenti di intelligenza artificiale ed esercitazioni di team di AI. Per quanto riguarda il suo modello di business, Ion Stoica ha indicato a