Apenas alguns dias após o seu lançamento de alto nível, a nova inteligência artificial Grok-4 da Xai foi com sucesso pelos pesquisadores de segurança. Em um Relatório publicado sexta-feira , os pesquisadores da NeuralTrust detalharam o que contornaram o pinças de segurança do modelo. Ataques, conhecidos como”Câmara do Echo”e”Crescendo”, para manipular o contexto da IA gradualmente. Esse jailbreak”sussurrado”funciona sem instruções abertamente maliciosas, expondo uma falha crítica em que a persuasão persistente e sutil pode derrotar filtros de segurança projetados para bloquear conteúdo prejudicial. Também ressalta a crescente sofisticação de ataques adversários contra grandes modelos de linguagem (LLMS). Como explicou o pesquisador do NeuralTrust, Ahmad Alobaid, “os ataques de jailbreak LLM não estão apenas evoluindo individualmente, eles também podem ser combinados para amplificar sua eficácia. Jailbreaks combinados
A estratégia dos pesquisadores representa uma evolução significativa nas técnicas de jailbreak. Eles iniciaram a violação usando o método da câmara de eco. Esse ataque explora a tendência de um LLM de confiar na consistência, criando um contexto”venenoso”em vários bate-papos aparentemente separados para normalizar uma idéia prejudicial.
Isso condicionou o modelo, mas não foi suficiente para quebrar completamente as defesas de Grok-4 por conta própria. Nesse ponto, a equipe implantou o ataque de crescendo, a Técnica Primeiro identificada por Microsoft Pesquisadores Para escalar a manipulação. Essa progressão sutil permite que o ataque passasse a filtros de segurança que procuram violações repentinas e óbvias da política. A equipe da NeuralTrust o usou para fornecer um impulso final quando seu ciclo de persuasão inicial parou. Depois de estabelecer a câmara do Echo, a equipe monitorou o progresso”obsoleto”. Quando a conversa parou de se mover em direção ao objetivo malicioso, eles injetaram a técnica Crescendo. Alobaid confirmou: “Nesse ponto, o Crescendo forneceu o impulso necessário”, alcançando o jailbreak completo em apenas duas voltas adicionais. O experimento de neuraltrust alcançou uma taxa de sucesso de 67% ao obter o Grok-4 para fornecer instruções para fazer um coquetel molotov. A equipe também testou outros tópicos prejudiciais, atingindo uma taxa de sucesso de 50% para obter instruções sobre a produção de metanfetamina e 30% para uma toxina.
O poder dessa técnica está em sua sutileza. Ele ignora as defesas tradicionais como as listas de palavras-chave porque não contém termos abertamente perigosos em um único prompt. Em vez disso, ele explora a própria memória contextual do modelo, transformando um recurso principal-sua capacidade de aprender com a conversa-na vulnerabilidade. Ele afirmou:”Este (experimento) destaca uma vulnerabilidade crítica: os ataques podem ignorar a intenção ou a filtragem baseada em palavras-chave, explorando o contexto de conversação mais amplo, em vez de depender de informações abertamente prejudiciais”. As descobertas revelam que os sistemas de segurança focados na intenção de uma volta única ou na filtragem de palavras-chave estão mal equipados para lidar com esses ataques de conversação em camadas que se desenrolam com o tempo. O lançamento do GROK-4 já foi ofuscado pelo colapso anti-semita de seu antecessor e pela descoberta de que o novo modelo consulta as opiniões pessoais de Elon Musk sobre X para tópicos controversos. Os pesquisadores já demonstraram várias maneiras de ignorar o LLM Guardrails, de The”MathPrompt”Bypass e Ataques de contexto . medidas de segurança robustas. À medida que os modelos se tornam mais poderosos e seu raciocínio mais complexo, eles também apresentam novas superfícies para ataques que os desenvolvedores estão lutando para antecipar.
As implicações são significativas, pois esses modelos são integrados a aplicações críticas do mundo real. Como Alobaid concluiu, “Nossas descobertas ressaltam a importância de avaliar as defesas de LLM em ambientes de várias turnos, onde a manipulação sutil e persistente pode levar a um comportamento inesperado do modelo”. A violação Grok-4 mostra que garantir a próxima geração de IA exigirá uma mudança fundamental para defesas dinâmicas e com reconhecimento de contexto, como firewalls especializados em LLM.