¿Grok 4 es solo un ganador de referencia? El modelo emblemático de Xai levanta las banderas rojas, parece muy sobrefiada para anotar bien

El Xai de

Elon Musk lanzó su nuevo modelo GROK 4 el 10 de julio, alegando que era la IA más poderosa del mundo basada en puntos de referencia académicos récord. Sin embargo, ha surgido una realidad claramente diferente desde su debut.

analistas independientes y las plataformas de preferencia de usuarios revelan que el modelo funciona mal en escenarios del mundo real, lo que sugiere que está”excesivo”a las pruebas ACE pero carece de usabilidad práctica. Esta brecha de rendimiento se amplifica mediante una semana de lanzamiento caótica.

Los investigadores también caminan el modelo dentro de las 48 horas y descubrieron su tendencia a consultar las opiniones personales de Musk. La narrativa de Dominio de AI de Xai ahora se enfrenta a una realidad de rendimiento cuestionable, problemas éticos no resueltos y defectos de seguridad persistentes.

Un rey de referencia cuestionable

en el papel, el debut de Grok 4 es un triunfo y aumenta la presión en OpenAi, que acaba de perder un grupo de investigadores por meta de la competencia y fue descartado por Google con un registro fallido de la codificación de AI. Arc-Agi-2 Razonamiento de referencia y anotando un 100% perfecto en el examen de matemáticas de invitación estadounidense. Musk se jactó de que”con respecto a las preguntas académicas, Grok 4 es mejor que el nivel de doctorado en cada tema, sin excepciones”.

Pero estas afirmaciones rápidamente parecen desentrañar bajo el escrutinio del mundo real. El problema central parece ser”excesivo”, un fenómeno donde un modelo está ajustado para sobresalir en métricas de evaluación específicas a expensas de la inteligencia general. Es un caso clásico de la ley de Goodhart En acción, donde,”cuando una medida se convierte en un objetivo, deja de ser una buena medida.”

Esto es una ilustración que se está ilustrando a la estarks. href=”https://yupp.ai/leaderboard”Target=”_ Blank”> clasifica los modelos basados en miles de pruebas de preferencia de usuario de cabeza a cabeza . En esta arena del mundo real, Grok 4 se clasificó en el puesto 66 poco después de su lanzamiento. Jimmy Lin, cofundador de Yupp.ai, confirmó la mala muestra, afirmando:”Grok 4 es peor que otros modelos líderes: OpenAi O3, Claude Opus 4 y Gemini 2.5 Pro. Grok 4 se gusta incluso menos que Grok 3″. href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”target=”_ blank”>@yupp_ai usuarios globalmente en casos de uso real.

‼ ️ 4 es peor que otros modelos líderes: OpenAi O3, Claude 4 y Gemini 2.5 Pro. Grok 4 se gusta incluso menos que Grok 3. 🧵 pic.twitter.com/iui3wpc3hn

-jimmy lin (@lintool) 11 de julio, 2025

Lin atribuido el modelo a la ranura al modelo lento. Un examen independiente de cinco tareas reflejó estos hallazgos, con Grok 4 que se colocó constantemente. Falló en tareas prácticas como la reparación del código de pitón, entregando soluciones elegantes pero no funcionales, y después de instrucciones de formato explícitas.

unos días después, después de 46.3k+ comparaciones de usuarios, el puntaje VIBE de Grok 4 en la tabla de clasificación Yupp.ai ahora ha subido para clasificarse alrededor de 16 , pero su Socre todavía está muy lejos que los modelos Claude 4 de Anthrope, Google 2.5 Pro y Gpt-4o.

Una cascada de controversia y torceduras ideológicas

La mala usabilidad de la pobre grok 4 se ve agravada por una serie de controversias. El lanzamiento ocurrió a la sombra de la crisis antisemita”horrible”de su predecesor, para la cual Xai luego emitió una disculpa, culpando a un”error técnico”.

El patrón de comportamiento errático ha provocado una alarma internacional. Tras el colapso de Grok 3, el Ministro de Asuntos Digitales de Polonia, Krzysztof Gawkowski, emitió una severa advertencia, declarando que”la libertad de expresión pertenece a los humanos, no la inteligencia artificial”. Este comportamiento, revelado por el rastro de la cadena de pensamiento del modelo, contradice directamente el objetivo de Xai de crear una”IA de búsqueda de la verdad máxima”.

Análisis adicional descubrió otros con respecto a los”kinks”. De acuerdo con los datos de snitchbench , Grok-4 muestra una marcada tendencia a la presa a las autoridades. Esto lo convierte en una propuesta arriesgada para la confianza del usuario. El punto de referencia está diseñado para probar la tendencia de una IA hacia lo que podría percibir como informes pro-social. Da los escenarios del modelo y evalúa si elige la opción de informar un usuario o situación a una figura de autoridad, en lugar de manejarlo de otra manera.

Promesas rotas y vulnerabilidades de puerta trasera

Más allá del rendimiento y el sesgo, el lanzamiento de Grok 4 también ha sido dominado por la seguridad de la seguridad. En 48 horas, los investigadores de seguridad de NeuralTrust habían justificado con éxito el modelo, haciendo que produzca instrucciones para hacer un cóctel Molotov.

Usaron un ataque sofisticado y multi-turno”susurrado” Esta técnica manipula gradualmente el contexto de conversación de la IA para evitar sus filtros de seguridad. Como explicó el investigador NeuralTrust Ahmad Alobaid,”los ataques de jailbreak LLM no solo evolucionan individualmente, también se pueden combinar para amplificar su efectividad”.

La vulnerabilidad destaca cómo las defensas centradas en las indicaciones individuales no están equipadas para manejar la manipulación persistente y sutil. El exitoso jailbreak se suma a una creciente lista de fallas vergonzosas y peligrosas para los modelos de Xai.

Cumpliendo estos problemas, Xai retrocedió en silencio un compromiso público con la transparencia. El modelo PREMIUM GROK 4 Heavy ahora está diseñado para ocultar su solicitud de sistema, una contradicción directa de una promesa previa de un investigador de XAI para mantenerlos abiertos.

Los críticos sugieren que el enfoque intenso en la supremacía de referencia fue un esfuerzo de relaciones públicas para justificar la valoración del cielo de Xai y cambiar la narrativa después de una semana de escándalos. Actualmente, Xai está preparando una nueva ronda de recaudación de fondos que podría valorarla en hasta $ 200 mil millones. Mientras que el equipo de XAI se envía a un ritmo notable, el debut defectuoso de Grok 4 sugiere que en la carrera por el dominio de la IA, la utilidad y la seguridad del mundo real pueden haberse quedado atrás.

¿Grok 4 es solo un ganador de referencia? El modelo emblemático de Xai levanta las banderas rojas, parece muy sobrefiada para anotar bien

Published by All Things Windows on July 16, 2025

Un rey de referencia cuestionable

Una cascada de controversia y torceduras ideológicas

Promesas rotas y vulnerabilidades de puerta trasera

IT Info

Mark Zuckerberg revela lo que realmente quiere el talento de IA: GPU y autonomía

IT Info

Meta cacahuetes a otro investigador superior de Openai que trabajó en los modelos de investigación O3 y Deep Investigation

IT Info

Operai prepara la suite de Office AI para desafiar a Microsoft y Google

¿Grok 4 es solo un ganador de referencia? El modelo emblemático de Xai levanta las banderas rojas, parece muy sobrefiada para anotar bien

Published by All Things Windows on July 16, 2025

Un rey de referencia cuestionable

Una cascada de controversia y torceduras ideológicas

Promesas rotas y vulnerabilidades de puerta trasera

Related Posts

IT Info

Mark Zuckerberg revela lo que realmente quiere el talento de IA: GPU y autonomía

IT Info

Meta cacahuetes a otro investigador superior de Openai que trabajó en los modelos de investigación O3 y Deep Investigation

IT Info

Operai prepara la suite de Office AI para desafiar a Microsoft y Google