Google的雙子座高級AI訂閱以其在跨會話中保留記憶來個性化對話的能力而聞名,在網絡安全研究人員發現了一種操縱其長期記憶的方法之後,受到了審查。

漏洞利用稱為延遲工具調用,將休眠命令嵌入提示或文檔中,僅在特定用戶輸入觸發它們時激活它們。這些攻擊損害了人工智能保持準確和公正的存儲信息的能力,引起了人們對啟用內存AI系統可靠性的嚴重關注。

這一發現增加了有關人工智能係統中脆弱性的越來越多的證據。較早的研究,例如Anthropic關於最佳N越獄的發現,強調了輸入提示的輕微差異如何繞過OpenAI的GPT-4O和Google的Gemini Pro等模型中的安全機制。

這些缺陷不是孤立的,研究人員指出了在視覺和基於音頻的AI系統中的風險類似的風險,進一步強調了問題的規模。

延遲工具調用的工作方式

延遲的工具調用技術操縱了Gemini的內存功能,該功能使聊天機器人可以存儲與用戶相關的數據進行個性化。攻擊者將秘密命令嵌入不信任的數據源中,例如上傳以進行摘要的文檔。

這些命令處於AI上下文中的休眠狀態,只有在用戶在不知不覺中觸發他們的特定響應(例如“是”或“確定”)時才激活。執行後,命令將損壞雙子座的長期記憶,插入跨會話中持續存在的錯誤或有偏見的信息。

Johann Rehberger所解釋的,誰發現了缺陷“,“當用戶後來用“ x”(x’(編程命令)表示“ x”時,執行工具。”

此方法允許攻擊者繞過Google的保障措施,該保障措施限制了在不信任的交互過程中激活工具。通過利用AI對用戶驅動的輸入的依賴,黑客避免立即檢測,使受損害的數據不受干擾,直到其未來相互作用的影響表現出來。

[嵌入式內容]

/strong>

雙子座的內存系統旨在通過在對話中保留上下文來增強用戶體驗。 Gemini Advanced等AI支持服務的訂閱者可以查看和管理AI記得的內容,從而對存儲信息進行一些控制。但是,這種功能引入了一個新的攻擊媒介。

持續的記憶篡改可能導致AI輸出,錯誤信息或在高風險環境中濫用敏感數據。

例如,在醫療保健應用中,攻擊者可能不正確患者數據進入用於診斷的AI系統,導致潛在的危險建議。同樣,具有損壞內存的法律AI工具可能會根據操縱輸入產生有缺陷的合同。這些方案展示了諸如延遲工具調用之類的利用如何有可能削弱對跨行業的AI系統的信任。

其他AI漏洞的課程

延遲工具Invocation利用是大語言模型(LLMS)中更廣泛的漏洞模式的一部分。類似的技術,例如最佳-伊斯特-n越獄,通過對有害提示進行輕微的修改來利用AI Systems的概率輸出。

例如,更改大寫或替換符號可以逃避旨在阻止惡意查詢的過濾器。這些方法不僅影響基於文本的模型,例如Gemini,而且還在基於視覺和音頻的AI系統中得到了證明。

行業響應和AI安全的工具

減輕這些風險的努力刺激了AI安全框架的創新。例如,NVIDIA引入了其Nemo Guardrails框架,旨在適度內容和防止對抗性輸入。

根據NVIDIA企業AI模型副總裁Kari Briski的說法,“像Nemo Guardrails Collection中的小型模型”可提供較低的延遲,從而無縫整合到資源受限的環境中,例如倉庫或醫院。”這些。”這些。”這些。”這些。”旨在通過維護對話界限和檢測未經授權的命令來保護AI系統的工具。

nvidia還開發了 garak toolkit 是一種開源解決方案,允許開發人員模擬對抗場景,包括及時的注射攻擊,以識別弱點。時間。人工智能安全討論,平衡功能與安全性是開發人員的艱鉅任務。保留記憶力諸如對個性化非常有價值的功能,但它們的濫用可以侵蝕用戶信任並破壞AI的好處。為了解決這些問題,公司必須採取積極的措施,例如記憶系統如何運作的嚴格對抗性測試和透明度。

,而Nemo Guardrails和Clio之類的工具代表著重要的步驟,但沒有系統可以免疫創造性的對抗性。攻擊。隨著攻擊者使用的方法變得更加複雜,該行業必須繼續發展其防禦能力。同時,對AI系統的風險和局限性的教育可以使用戶更加謹慎地與這些工具進行交互。

Categories: IT Info