Reeling de una asociación desastrosa con Meta que provocó un éxodo de clientes y despidos masivos, la firma de marcas de datos Scale AI está haciendo una jugada audaz para reclamar su autoridad en la industria de la IA.

La compañía lanzó hoy”sellado de sello”, una nueva placa de clasificación diseñada para detectar rivales influyentes pero criticadas como LMARENA.”Benchmark Wars”usando A diversa base de usuarios globales y salvaguardas contra la manipulación . Este pivote estratégico tiene como objetivo abordar las crecientes preocupaciones de que las clasificaciones actuales de IA se denominan fácilmente y no reflejan el rendimiento del mundo real, ofreciendo escala un camino para reconstruir su reputación sobre una base de confianza.

Cómo SEAL Showdown tiene como objetivo construir un mejor punto de referencia

escala AI está posicionando el showdown como el antídoto de este sistema defectuoso. La compañía argumenta que las tablas de clasificación de hoy están sesgadas porque dependen en gran medida de los comentarios de un grupo estrecho de entusiastas de la tecnología , que maldita el funcionamiento de los modelos de los modelos de los modelos de los Modelos de los Modelos de los Modelos de los Modelos de los Modelos de los Millones de los Modos de los Modos de los Millones de los Modos de la Corta de los Modos de los Millones de los Millones de los Millones de los Millones de los Millones de los Millones de la Casta de la Cala de la Cala de los Millones de los Millones de los Millones de los Millions de la Cabora de los Millones de los Millones de la Cultivación de los Millones. red. Esta red abarca más de 100 países, 70 idiomas y varias profesiones, prometiendo una evaluación más representativa y realista del rendimiento del modelo.

Por primera vez en una tabla de clasificación pública, los usuarios pueden segmentar clasificaciones por demografía como país, edad, nivel de educación e idioma. Esto permite a los desarrolladores y clientes ver cómo funcionan los modelos para audiencias específicas, en lugar de confiar en una sola puntuación monolítica.

, por ejemplo, los datos iniciales de Scale revelan preferencias regionales, con ChatGPT liderando en Europa, mientras que Claude es más competitivo en otro lugar. También muestra cómo modelos como Gemini funcionan mejor con los usuarios que no son de inglés, que ofrecen ideas previamente no disponibles para el público.

de manera crucial, la escala también está implementando salvaguardas contra la manipulación. La compañía establece que no venderá ni licenciará datos recientes de la misma distribución que la tabla de clasificación en vivo. Esta política está diseñada para evitar que los laboratorios de IA simplemente ajusten sus modelos a”jugar”las clasificaciones, lo que les obliga a construir sistemas genuinamente capaces.

El movimiento subraya un principio que se ha convertido en un grito de reunión para los competidores de Scale. Como el CEO de Turing, Jonathan Siddharth, argumentó después del Meta Deal,”la neutralidad ya no es opcional, es esencial”. Al lanzar una plataforma basada en la transparencia y la neutralidad, Scale AI intenta reclamar esa calidad esencial.

En última instancia, SEAL Showdown es más que un lanzamiento de productos; Es una oferta de alto riesgo para la redención. Para una empresa cuya reputación se hizo destrozada por un acuerdo que comprometió su independencia, construir el punto de referencia más confiable de la industria puede ser el único camino de regreso a una posición de liderazgo.

de la crisis corporativa a una oferta de credibilidad

El lanzamiento es una respuesta directa a unos pocos meses catastróficos para la compañía, una ida de una sola decisión por una sola decisión. En junio, Meta invirtió $ 14.3 mil millones para una participación del 49% en la escala AI.

El movimiento fue un gambito desesperado de Meta para contrarrestar su propia agitación interna, incluido un drenaje de talento severo y un desarrollo de modelos de IA estancados. Laboratorio de”Superinteligencia”. Como señaló un analista, era una inversión”ni siquiera comprar una empresa completa, sino solo que el jefe de una empresa encabezara su esfuerzo de IA”.

Si bien un golpe estratégico para Meta, la asociación destrozó la base de la base de la escala: neutralidad. Se les confía datos sensibles y patentados y futuras hojas de ruta de productos de gigantes tecnológicos competidores. El Meta Deal destruyó esa confianza en un instante.

Las consecuencias fueron inmediatas y graves. Un éxodo de clientes comenzó como gigantes de la industria, incluidos Google, Microsoft y el XAI de Elon Musk, comenzó a revisar sus asociaciones, temiendo que sus datos pudieran estar expuestos a un competidor directo.

Google, según los informes, el cliente más grande de Scale, comenzó a planificar un contrato de $ 200 millones. En julio, solo un mes después del Meta Deal, la compañía despidió el 14% de su fuerza laboral, que afecta a 200 empleados a tiempo completo y 500 contratistas. Los recortes se manejaron abruptamente, con el personal cerrado de los sistemas antes de que se despertaran.

Compreño La crisis había informes de una falla crítica de seguridad que expuso los datos del cliente en los documentos públicos de Google, dañando aún más su reputación por el manejo seguro de datos. La realineación del mercado creó una oportunidad masiva para los rivales de Scale, con empresas como Surge AI, según los informes, que buscan un nuevo capital para absorber a los clientes que huyen.

La agitación culminó en acciones legales. A principios de septiembre, Scale AI presentó una demanda de espionaje corporativo contra la firma rival Mercor y un ex ejecutivo, Eugene Ling.

La demanda alega que Ling robó más de 100 documentos confidenciales que contienen secretos comerciales antes de unirse al competidor. El movimiento señala a una compañía bajo una inmensa presión, que ahora lucha por proteger su propiedad intelectual a medida que los competidores aprovechan su inestabilidad.

El juego de alto riesgo de tablas de clasificación defectuosas

sellado de sello entra en una arena ferozmente competitiva dominada por plataformas como LMARENA, que se han convertido en los puentes de facto en las ARI de la arma de la arma de AI.

Este intenso enfoque en las métricas ha llevado a prácticas como”Hilllimbing”. Un informe reciente reveló que Xai contrató a los contratistas de Elon Musk con el objetivo explícito de capacitar a su modelo GROK para vencer a Claude de su rival Anthrope en el influyente Webdev Arena Coding Raeperboard.

Un documento interno de incorporación de forma interna indicó sin rodeos:”Queremos hacer del modelo en la tarea el modelo #1″, según Business Insider .

Este enfoque de”Enseñanza”ha dividido la comunidad AI. Algunos, como el CEO de Lmarena, Anastasios Angelopoulos, lo ven como una parte estándar del desarrollo, diciendo a Business Insider:”Esto es parte del flujo de trabajo estándar de la capacitación de modelos. Necesita recopilar datos para mejorar su modelo”.

son más escépticos, advirtiendo que conduce a los resultados distorsionados. Sara Hooker, directora de Cohere Labs, argumentó que”cuando una tabla de clasificación es importante para todo un ecosistema, los incentivos están alineados para que se jueguen”.

Esto no es solo una preocupación teórica. El enfoque intenso en los puntos de referencia parece estar creando una brecha peligrosa entre cómo funcionan los modelos en las pruebas y cómo funcionan en el mundo real.

Este es un ejemplo clásico de la ley de Goodhart, donde una medida deja de ser útil una vez que se convierte en el objetivo principal. Como estratega AI nate jones escribió ,”el momento en que establecemos el dominio de la clasificación como el dominio de la clasificación como el riesgo, corremos el riesgo de crear modelos que excele en los ejercicios triviales y el ritmo de la ciudad. Sistémico, según un estudio de julio en coautoría de investigadores de Amazon, Stanford y Mit.

el Docum hasta el 100% debido a problemas en la configuración de tareas y el diseño de recompensas. Los autores encontraron que estos defectos podían erradicar agentes en tablas de clasificación competitivas hasta en un 40 por ciento.

Incluso antes de este estudio, los críticos cuestionaron la validez científica de las plataformas de crowdsourcing. La profesora de la Universidad de Washington, Emily Bender, argumentó que”para ser válido, un punto de referencia debe medir algo específico, y debe tener validez de construcción…,”señalando que Lmarena no había demostrado que los votos de los usuarios realmente se correlacionen con la calidad del modelo, según TechCrunch.

El equipo de Lmarena ha empujado hacia atrás”diseño”