lmarena, una startup surgió del influyente proyecto de Chatbot Arena de UC Berkeley, ha obtenido $ 100 millones en fondos iniciales, impulsando su valoración a una actualización de $ 600 millones. Fondo. La infusión de capital tiene como objetivo comercializar y expandir significativamente la plataforma de evaluación del modelo AI.
Este desarrollo subraya la creciente importancia y el respaldo financiero de las herramientas diseñadas para evaluar las capacidades de inteligencia artificial, ofreciendo ideas cruciales para desarrolladores y la industria. Construya modelos Ever-Bigger, la pregunta difícil ya no es lo que puede hacer. dejó una marca, con más de cuatrocientas evaluaciones de modelos y más de tres millones de votos emitidos, influyendo en modelos de gigantes tecnológicos como Google, OpenAi, Meta y XAI. Ion Stoica, cofundador de Lmarena y profesor de UC Berkeley, enfatizó el papel de la plataforma, afirmando:”La evaluación de IA a menudo se ha retrasado detrás del desarrollo de modelos. Lmarena cierra esa brecha al poner la ciencia rigurosa y impulsada por la comunidad en el centro. Es refrescante para ser parte de un equipo que lidera a largo plazo con una integridad a largo plazo en un espacio que mueve un espacio riguroso este rápido”. Venture
Chatbot Arena surgió inicialmente a principios de 2023 desde UC Berkeley sky computing lab . Su método innovador involucra a los usuarios que comparan ciegamente los resultados de dos modelos de IA anónimos, con votos que generan clasificaciones a través de un sistema de calificación ELO. Este enfoque rápidamente hizo de su clasificación pública un recurso influyente.
La transición a una compañía formal, Arena Intelligence Inc., que operaba como Lmarena, tenía la intención de asegurar recursos para actualizaciones significativas. El liderazgo incluye a los recientes investigadores postdoctorales de UC Berkeley Anastasios Angelopoulos y Wei-Lin Chiang, junto con el Profesor Stoica, cofundador de Databricks y AnyScale.
Antes de esta ronda de semillas, el proyecto recibió el apoyo de las subvenciones de la Universidad y las donaciones de las entidades como Google’s Kaggle, Andreessen Horowitz a través de su concesiones AI de fuga abierta , y ai infraestructura firma juntos ai . A versión beta del sitio web de Lmarena también se lanzó para mejorar la experiencia del usuario.
navegación de escrutinio de navegación
a pesar de su creciente influencia, lmarena y un becanes similares a un bosqueo de un crowdsourced ai y a las académicas de la carcasa de los académicos de la carcasa y un bez académico similar a la carcasa de los académicos y un bez académico similar a la carcasa de la carcasa y un billetes similares, y a un resumen de los académicos similares, a un punto de vista similar, a los académicos de la carcasa de la carcasa y un billino de la carcasa similar, a un bosqueo de un resumen similar. Especialistas en ética. Una preocupación central es si tales mecanismos de votación realmente capturan cualidades de modelo significativas.
Emily Bender, un profesor de lingüística de la Universidad de Washington, expresó el escepticismo a TechCrunch, afirmando: “Para ser válido, un punto de referencia debe medir algo específico, y debe tener la validez de construcción, es decir, es evidencia de que la evidencia de que el interés es bien definido y que se relaciona bien y que los medidas en realidad se relacionan con el establecimiento de la construcción de la construcción de la construcción de la construcción de la construcción de la construcción de la construcción bien. Además, comentó:”Chatbot Arena no ha demostrado que votar por un resultado sobre otro en realidad se correlaciona con las preferencias, sin embargo, pueden definirse”.
Los críticos también se preocupan por el potencial de mal interpretación de resultados, con Asmelash Teka Hadgu de Lesan sugiriendo que los laboratorios puedan usar estas plataformas para”reclamos exagerados”. Esta preocupación fue amplificada por controversias como Meta’s Llama 4 Maverick Model, donde, como informó TechCrunch, la compañía comparó una versión especialmente sintonizada que superó al estándar uno más tarde lanzado. T
La dependencia de las contribuciones de los usuarios no remuneradas también ha dibujado el escrutinio ético; Kristine Gloria, anteriormente del Instituto Aspen, le dijo a TechCrunch que tales puntos de referencia”nunca deberían ser la única métrica para la evaluación”. Matt Frederikson de Gray Swan AI estuvo de acuerdo en que los puntos de referencia públicos”no son un sustituto”para las rigurosas pruebas internas y aconsejó una comunicación clara de los desarrolladores y los creadores de referencia. El cofundador Wei-Lin Chiang le dijo a TechCrunch:”Nuestra comunidad no está aquí como voluntarios o probadores de modelos”. He explained that users engage with LMArena for its open and transparent environment for AI interaction and collective feedback.
The company has publicly declared its commitment to fairness in an LMArena blog post, stating, “Our leaderboard will never be Sesgado hacia (o en contra) cualquier proveedor, y reflejará fiel las preferencias de nuestra comunidad por diseño. Anastasios Angelopoulos también ha articulado una visión para Lmarena como un lugar para que todos exploren y comparen IA.
Mirando hacia adelante, Lmarena tiene la intención de ampliar significativamente sus actividades de evaluación. Los planes incluyen mejorar el apoyo para la investigación abierta y la introducción de arenas de prueba especializadas como Webdev Arena, Repochat Arena y Search Arena. Los proyectos futuros se dirigirán a modelos de visión, agentes de IA y ejercicios de equipo rojo de IA. Con respecto a su modelo de negocio, Ion Stoica indicó