Solo unos días después de su lanzamiento de alto perfil, la nueva inteligencia artificial GROK-4 de XAI ha sido exitosa por los investigadores de seguridad. En a Informe publicado el viernes , los investigadores de NeuralTrust detallaron cómo omitieron las tutores de seguridad del modelo para generar instrucciones para generar un molotov Cocktail.

. Los ataques, conocidos como”Cámara de Echo”y”Crescendo”, para manipular el contexto de la IA gradualmente. Este jailbreak”susurrado”funciona sin ninguna indicación abiertamente maliciosa, exponiendo un defecto crítico donde la persuasión persistente y sutil puede derrotar a los filtros de seguridad diseñados para bloquear el contenido dañino.

El incidente empaña aún más una semana despliegue caótica para Xai, que ha estado luchando con una reacción pública sobre el comportamiento de su IA. También subraya la creciente sofisticación de los ataques adversos contra modelos de idiomas grandes (LLM). Como explicó el investigador NeuralTrust, Ahmad Alobaid,”los ataques de jailbreak de LLM no solo evolucionan individualmente, también se pueden combinar para amplificar su efectividad”.

una puerta trasera sigilosa a través de los brotebretos combinados

La estrategia de los investigadores representa una evolución significativa en las técnicas de jailbreaos. Iniciaron la violación utilizando el método de cámara de eco. Este ataque explota la tendencia de una LLM a confiar en la consistencia al crear un contexto”venenoso”en múltiples chats aparentemente separados para normalizar una idea dañina.

Este condicionamiento prepara el modelo, pero no fue suficiente para romper completamente las defensas de Grok-4 por sí solas. En ese momento, el equipo desplegó el ataque Crescendo, a La técnica identificada primero identificada por Microsoft Investigadores , para aumentar la manipulación.

cracendo trabaja por primera vez por una conversación de una conversación de inodocales. Esta sutil progresión permite que el ataque pase más allá de los filtros de seguridad que buscan violaciones repentinas y obvias de la política. El equipo NeuralTrust lo usó para proporcionar un impulso final cuando su ciclo de persuasión inicial se estancó.

En una publicación de blog, Alobaid detalló el flujo de trabajo combinado. Después de establecer la Cámara de Echo, el equipo supervisó el progreso”rancio”. Cuando la conversación dejó de moverse hacia el objetivo malicioso, inyectaron la técnica de crescendo. Alobaid confirmó:”En este punto, Crescendo proporcionó el impulso necesario”, logrando el jailbreak completo en solo dos turnos adicionales.

cómo los trucos contextuales hacen trucos de sistemas de seguridad

El ataque combinado demostró ser notablemente efectivo. El experimento NealalTrust logró una tasa de éxito del 67% para lograr que Grok-4 proporcione instrucciones para hacer un cóctel Molotov. El equipo también probó otros temas nocivos, alcanzando una tasa de éxito del 50% para las instrucciones sobre la producción de metanfetamina y 30% para una toxina.

La potencia de esta técnica radica en su sutileza. Evita las defensas tradicionales como las listas negras de palabras clave porque no contiene términos abiertamente peligrosos en ningún mensaje. En cambio, explota la propia memoria contextual del modelo, convirtiendo una característica central, su capacidad para aprender de la conversación, en una vulnerabilidad.

Alobaid destaca esto como una debilidad crítica para las LLM de generación de corriente. Dijo:”Este (experimento) destaca una vulnerabilidad crítica: los ataques pueden evitar la intención o el filtrado basado en palabras clave explotando el contexto de conversación más amplio en lugar de depender de una entrada abiertamente dañina”. Los resultados revelan que los sistemas de seguridad centrados en la intención de un solo cambio de cambio o el filtrado de palabras clave están mal equipados para manejar estos ataques de conversación en capas que se desarrollan con el tiempo.

Un patrón de vulnerabilidad en los modelos de IA fronterizos

Este brote de jail no es un incidente aislado, sino el último en una serie de fallas de Fe Fause de XAI. El lanzamiento de GROK-4 ya estaba eclipsado por la crisis antisemita de su predecesor y el descubrimiento de que el nuevo modelo consulta las opiniones personales de Elon Musk sobre X para los temas controvertidos.

Más ampliamente, el incidente refleja un patrón persistente de vulnerabilidades que afectan incluso los sistemas de AI más avanzados. Los investigadores han demostrado anteriormente numerosas formas de omitir las barandillas de LLM, de a el omitido”MathPrompt” y Ataques de envenenamiento de contexto .

Estas explotaciones destacan la tensión de los fundamentales en AI: la carrera por el desarrollo de las capas de intoxicación .

Medidas de seguridad. A medida que los modelos se vuelven más poderosos y su razonamiento más complejo, también presentan nuevas superficies para ataques que los desarrolladores están luchando por anticipar.

Las implicaciones son significativas ya que estos modelos están integrados en aplicaciones críticas del mundo real. Como concluyó Alobaid,”nuestros hallazgos subrayan la importancia de evaluar las defensas de LLM en entornos de múltiples vueltas donde la manipulación sutil y persistente puede conducir a un comportamiento inesperado del modelo”. La violación de Grok-4 muestra que asegurar la próxima generación de IA requerirá un cambio fundamental hacia defensas dinámicas y conscientes del contexto, como los firewalls de LLM especializados.

.

Categories: IT Info