Un coro creciente de académicos y especialistas en ética de IA está poniendo en duda la confiabilidad y la equidad de las plataformas populares de crowdsourcing utilizadas para clasificar los modelos de inteligencia artificial, desafiando directamente un método cada vez más favorecido por gigantes tecnológicos como OpenAi, Google y Meta.
En el centro de este debate está Lmarena, la plataforma anteriormente conocida como Chatbot Arena, cuyo sistema de comparación de cabeza a cabeza se ha vuelto influyente, sin embargo, se enfrenta a preguntas puntuales sobre su fundamento científico y la mano de obra no remunerada, provocando una discusión en toda la comunidad de investigación de AI. modelos AI sin nombre y seleccionar la salida preferida. Estos votos generan clasificaciones usando un sistema de calificación de elo , un método comúnmente utilizado en el ajedrez para estimar los niveles de habilidad relativa.
Esta tabla de clasificación pública se convirtió rápidamente en un recurso de lectura después de su lanzamiento a principios de 2023 por los investigadores asociados con UC Berkeley Sky Computing Lab , atrayendo un millón de visitantes mensuales y sirviendo como un campo de pruebas, a veces incluso para modelos inéditos.
Reconociendo la necesidad de recursos, el equipo académico, dirigido por UC Berkeley postdoctoral Postdoctoral y wei-lin chiang , junto con el profesor y notable tecnología empresarial ion Stoica (cofundador de Databricks y AnyScale): establecido Arena Intelligence Inc. el 18 de abril.
Operando bajo la marca Lmarena, la nueva compañía tiene como objetivo asegurar fondos para la expansión, indicando”convertirse en una compañía nos dará los recursos para mejorar Lmarena significativamente lo que es hoy”.”.”.”.”.”.”.”.”.”.”.”.”.”.”.”.”.”.”. Esto siguió al apoyo inicial de las subvenciones y donaciones de organizaciones, incluida la plataforma Kaggle de Google, la empresa de capital de riesgo Andreessen Horowitz , y la compañía de infraestructura de AI juntos ai . Coincidiendo con la incorporación, un nuevo sitio web beta lanzado en beta.lmarena.ai , centrado en mejorar la velocidad y la experiencia del usuario.
¿Medir qué importa? Validez bajo escrutinio
Una crítica central sondea si la votación de crowdsourced de Lmarena realmente evalúa las cualidades significativas del modelo o refleja la preferencia genuina del usuario de manera robusta. Emily Bender, profesora de lingüística de la Universidad de Washington, destacó las preocupaciones sobre la metodología subyacente del punto de referencia en una declaración a TechCrunch.
“Para ser válido, un punto de referencia debe medir algo específico, y debe tener validez de construcción, es decir, es evidencia de que el interés de los intereses está bien definido y que las medidas en realidad se relacionan con el BenDer.
Señaló una falta de evidencia que demuestre que el método de Lmarena captura efectivamente la preferencia, afirmando:”Chatbot Arena no ha demostrado que votar por un resultado sobre otro en realidad se correlaciona con las preferencias, sin embargo, pueden definirse”. Estas críticas actuales se basan en el escrutinio existente que enfrentó la plataforma con respecto a la subjetividad de los votos, los posibles sesgos demográficos en su base de usuarios, la transparencia del conjunto de datos y las diferentes condiciones de evaluación para varios tipos de modelos. Asmelash Teka Hadgu, cofundadora de la firma de IA Lesan, sugirió que los laboratorios podrían estar”cooptados”para usar plataformas como Lmarena para”promover afirmaciones exageradas”. Citó la controversia en torno al modelo Maverick Llama 4 Maverick de Meta, donde la compañía fue criticada por la evaluación comparativa de una versión específicamente sintonizada que, según los informes, superó la versión estándar que finalmente se lanzó al público. Hadgu aboga por los puntos de referencia dinámicos e independientes adaptados a dominios profesionales específicos, utilizando expertos pagados.
La ética de la evaluación de voluntariado
La dependencia de la plataforma en las contribuciones de los usuarios no pagados también provoca un examen ético. Kristine Gloria, anteriormente del Instituto Aspen, atrajo paralelos a la industria de etiquetado de datos a menudo explotador, un problema que algunos laboratorios como OpenAI han enfrentado preguntas anteriormente. Al ver el valor en diversas perspectivas, Gloria sostiene que los puntos de referencia de crowdsourced”nunca deberían ser la única métrica para la evaluación”y el riesgo de ser poco confiable.
Matt Frederikson, CEO de CEO de Gray Swan AI, que utiliza crowdsourcing para el equipo de AI Red, acelerado que los benchmaros públicos”no son un sustituto de la prueba interna y el análisis de expertos en el pago.”Es importante que los desarrolladores de modelos y los creadores de referencia, crowdsourced o de otro tipo, comuniquen los resultados claramente a aquellos que siguen y responden cuando se les cuestiona”, aconsejó Frederikson.
lmarena defiende su rol y mira a los que se les ocurre a las plataformas.”Nuestra comunidad no está aquí como voluntarios o evaluadores de modelos”, dijo Chiang a TechCrunch.
“La gente usa LM Arena porque les damos un lugar abierto y transparente para interactuar con la IA y dar comentarios colectivos. Mientras la tabla de clasificación refleje fielmente la voz de la comunidad, les damos la bienvenida a las reglas de la comunidad. señalando que Lmarena tiene políticas actualizadas para la justicia. El cofundador Anastasios Angelopoulos agregó contexto a sus objetivos, declarando:”Nuestra visión es que este seguirá siendo un lugar donde todos en Internet pueden venir e intentar chatear y usar IA, comparar diferentes proveedores y así sucesivamente”. Target=”_ en blanco”> Declaración pública de la empresa :”Nuestra tabla de clasificación nunca estará sesgada hacia (o en contra) de ningún proveedor, y reflejará fielmente las preferencias de nuestra comunidad por diseño. Será basado en la ciencia”.
Como Arena Inc. busca fondos y define su modelo de negocio: las compañías de cargos de negocios para evaluaciones de lingües grandes. Las iniciativas específicas mencionadas incluyen WebDev Arena, Repochat Arena y Search Arena, con planes futuros dirigidos a modelos de visión, agentes de IA y entornos dedicados de teatro rojo de IA. Esta expansión llega en medio de una discusión más amplia de la industria sobre los métodos de evaluación, un punto admitido por cifras como el CEO de Openrouter Alex Atallah, quien acordó las pruebas abiertas solas”no es suficiente”.