在其引人注目的推出後幾天,Xai的新Grok-4人工智能已被安全研究人員成功越獄。在週五發布的報告 ,NeuralTrust的研究人員詳細介紹了模型的安全指導,以製作pp
這一事件進一步損害了XAI的混亂推廣週,這一直在與公眾對AI的行為抗爭。它還強調了對大型語言模型(LLM)的對抗性攻擊日益增長的成熟。正如Neurtrust研究人員艾哈邁德·阿拉伯德(Ahmad Alobaid)所解釋的那樣:“ LLM越獄攻擊不僅在單獨發展,還可以合併以擴大其有效性。”
研究人員的戰略代表了越獄技術的重大發展。他們使用迴聲室法開始了漏洞。這次攻擊利用了LLM通過在多個,看似分開的聊天中創建“有毒”上下文以使有害想法正常化的趨勢。
這種調理素數是模型的,但不足以自行打破Grok-4的防禦能力。 At that point, the team deployed the Crescendo attack, a technique first identified by Microsoft researchers, to escalate the manipulation.
Crescendo works by gradually steering a conversation from innocuous prompts to malicious outputs.這種微妙的進展使攻擊能夠滑過尋求突然,明顯違反政策的安全過濾器。 NeuralTrust團隊使用它在最初的說服週期停滯不前時提供了最終的推動。
在博客文章中,Alobaid詳細介紹了合併的工作流程。在建立迴聲室後,團隊監視了“陳舊”的進度。當談話停止朝著惡意目標邁進時,他們注入了漸強技術。 Alobaid確認:“在這一點上,Crescendo提供了必要的提升:“在另外兩回合中實現了完整的越獄。
上下文技巧作弊安全系統
合併的攻擊如何非常有效。 NeuralTrust實驗在獲得Grok-4的成功率中取得了67%的成功率,以提供製作Molotov雞尾酒的說明。該團隊還測試了其他有害主題,達到了50%的生產甲基苯酚的成功率和毒素的30%。
這項技術的力量在於其微妙之處。它繞過傳統的防禦能力,例如關鍵字黑名單,因為它在任何一個提示中都不包含公開的危險術語。取而代之的是,它利用了模型自己的上下文記憶,將核心功能轉換為從對話中學習的能力- into脆弱性。
alobaid強調這是當前生成LLM的關鍵弱點。他說:“這個(實驗)強調了一個關鍵的漏洞:攻擊可以通過利用更廣泛的對話上下文而不是依靠公開有害的輸入來繞過意圖或基於關鍵字的過濾。 ” The findings reveal that security systems focused on single-turn intent or keyword filtering are ill-equipped to handle these layered, conversational attacks that unfold over time.
A Pattern of Vulnerability in Frontier AI Models
This jailbreak is not an isolated incident but the latest in a series of embarrassing and dangerous failures for xAI’s models. Grok-4的推出已經被其前任的反猶太崩潰所掩蓋,並發現新模型會諮詢Elon Musk對X的個人意見,以了解有爭議的主題。
更廣泛地說,這一事件反映了一種影響最先進的AI系統的脆弱性模式。 Researchers have previously demonstrated numerous ways to bypass LLM guardrails, from Microsoft’s “Skeleton鍵“越獄 to “ nathprompt”旁路 href=“ https://www.csoonline.com/article/570555/570555/how-data-poisising-tacks-corrupt-machine-learning-models.html” target=“ _ black”>上下文中毒攻擊的攻擊
這些含義很重要,因為這些模型已集成到關鍵的現實世界中。正如Alobaid得出的那樣,“我們的發現強調了在多轉彎設置中評估LLM防禦措施的重要性,在這些設置中,微妙的,持續的操縱可以導致意外的模型行為。 ” Grok-4的違規表明,確保下一代AI需要向動態,背景感知的防禦措施(例如專業的LLM防火牆)進行基本轉變。