En la carrera feroz por la supremacía de IA, el XAI de Elon Musk apuntó directamente a rival antrópico. Un nuevo informe muestra que a principios de julio, Xai contrató a los contratistas para capacitar a su modelo GROK con un objetivo claro: vencer a Claude de Anthrope en una tabla de clasificación de codificación pública.

Los documentos internos dijeron a los trabajadores en la plataforma de IA de escala para ayudar a Grok a subir las filas de la influyente Webdev Arena. La medida muestra la intensa presión sobre los laboratorios de IA para superar los puntos de referencia públicos, que actúan como un marcador clave para atraer inversiones y clientes.

Relacionado: ¿Es Grok 4 un ganador de referencia? El modelo insignia de Xai levanta las banderas rojas, parece muy sobrecargado para obtener bien

>

This focus comes as Grok 4’s real-world performance faces tough questions from users.

A Battle Fought on Public Leaderboards

Según a Business Insider, las instrucciones del proyecto eran inequívocas. Los contratistas tuvieron la tarea de”HillClimb”Grok’s Ranking, con un documento de incorporación de AI a escala que indica:”Queremos hacer del modelo en la tarea el modelo #1″. El objetivo específico era el”soneto 3.7 extendido”de Anthrope, identificando a la compañía como un rival clave en el espacio de codificación de IA.

Esta estrategia subraya la inmensa influencia de las tablas de clasificación pública en la configuración de la narrativa de IA. Para los laboratorios como Xai, Anthrope y OpenAI, un primer lugar en una tabla respetada como Lmarena puede traducirse directamente en el zumbido de los medios, los contratos empresariales y una valoración más alta.

La elección del objetivo es revelador. Anthrope ha posicionado constantemente sus modelos Claude como asistentes de codificación de primer nivel, un reclamo respaldado por fuertes actuaciones de referencia y adopción de desarrolladores. Esto los convierte en el rival de facto para vencer.

práctica estándar o juegos del sistema?

La práctica de entrenar intensamente un modelo en formatos de prueba específicos plantea preguntas. ¿Es este un método legítimo para mejorar un modelo, o simplemente está enseñando a la prueba para jugar el ranking? La comunidad de IA permanece dividida sobre el tema.

Algunos expertos lo ven como una parte normal del ciclo de desarrollo. El CEO de Lmarena, Anastasios Angelopoulos, lo considera un procedimiento estándar, que le dice a Business Insider:”Esto es parte del flujo de trabajo estándar de la capacitación del modelo. Necesita recopilar datos para mejorar su modelo”. Desde esta perspectiva, el uso de datos de la tabla de clasificación para encontrar y arreglar las debilidades es un paso lógico.

Sin embargo, otros son más escépticos, advirtiendo que un enfoque excesivo en las métricas puede conducir a resultados distorsionados. Sara Hooker, directora de Cohere Labs, argumentó que”cuando una tabla de clasificación es importante para todo un ecosistema, los incentivos están alineados para que se jueguen”.

Esto no es solo una preocupación teórica. En abril, Meta enfrentó las acusaciones de las tablas de clasificación de juegos después de una variante de su modelo Maverick Llama 4 utilizado para la evaluación comparativa diferían de la versión pública, lo que provocó el debate entre los investigadores.

La brecha amplia entre los puntos de referencia y la realidad

Este intenso enfoque en compartimos parece estar creando un espacio entre los modelos en el momento de la referencia y la realización de los modelos y el desempeño de los modelos. Este es un ejemplo clásico de la ley de Goodhart, donde una medida deja de ser útil una vez que se convierte en el objetivo principal.

El lanzamiento de Grok 4 proporciona una ilustración reveladora de esto. Mientras que Xai promocionó puntajes récord en las pruebas académicas, su rendimiento práctico fue interrogado de inmediato. En la plataforma de preferencia de usuarios Yupp.ai, que se basa en las comparaciones de cabeza a cabeza, Grok 4 inicialmente clasificó un peste 66º.

yupp.ai, el cofundador Jimmy Lin sin deshig en: “Grok 4 es peor que otros modelos principales: OpenAi O3, Claude Opus 4 y Gemini 2.5 Pro. Grok 4 es un poco menos que Grok 3.””””. Esta pobre presentación se atribuyó a que el modelo era lento y propenso a errores en escenarios del mundo real. A mediados de julio, Grok 4 había subido al puesto 12 en el Webdev Arena, aún siguiendo los modelos de Anthrope.

Webdev Arena Raeperboard (22/07/2025)

Esta desconexión preocupa a muchos observadores de la industria. El estratega AI Nate Jones Escribió en su boletín ,”El momento en que establecemos la dominancia de la tabla de clasificación como el objetivo, corremos el riesgo de crear modelos que en el ejercicio trivial y flotador de realidad carcialmente realizada”. Para los desarrolladores, esto significa un modelo que ACES un examen aún podría fallar en las tareas prácticas de codificación que necesitan para realizar.

apuestas altas y un despliegue problemático

El impulso del dominio de la tabla de clasificación no se trata solo de alardear de los derechos. El esfuerzo se produce cuando Xai busca una nueva ronda de recaudación de fondos que podría valorarlo en hasta $ 200 mil millones, lo que convierte a los titulares positivos en un activo estratégico.

Esta presión para actuar en puntos de referencia coinciden con una semana de lanzamiento chaótico para Grok 4, que se ha empañado por las fallas de seguridad y las revelaciones de Biat ideológicos en sus respuestas.

. Revela el juego de alto riesgo que está jugando AI Labs, donde la percepción del dominio, impulsada por los gráficos de referencia, puede ser tan importante como la utilidad práctica real del modelo.

Categories: IT Info