Chatgpt中的安全缺陷揭示了OpenAI安全措施中的一個關鍵漏洞,使用戶可以操縱AI對繞過敏感主題限制的時間的看法。
在2024年11月在Chatgpt-4O的一項可解釋性研究中。
通過利用模型無法準確處理時間上下文,Kuszmar能夠提取信息,以提取出OpenAI的保障措施旨在防止披露的信息。
建造了由Chatgpt驅動的機器人哨兵步槍
Kuszmar並沒有打算尋找越獄的開發人員。取而代之的是,在研究與Chatgpt如何解釋提示有關的單獨研究項目時,他注意到該模型表現出時間混亂的跡象。
AI努力確定它是在當前,過去還是將來的響應,導致他假設它可以通過仔細構建有意的基於時間的不一致的提示來操縱它來揭示受限制的知識。
他隨後的測試證實,Chatgpt可能會被欺騙,以為它在同時仍在應用現代知識的同時幫助一個人,從而繞開Openai對與武器開發,核材料和網絡威脅有關的內容的限制。
當Kuszmar意識到自己發現的安全含義時,他試圖提醒Openai,但努力達到正確的聯繫。
他的披露是將第三方漏洞報告平台的Bugcrowd重定向的,但他覺得缺陷太敏感了,無法通過外部報告系統處理。
他隨後達到了向CISA,聯邦調查局和其他政府機構出發,希望能為確保解決脆弱性的幫助。但是,他沒有得到任何回應,使他越來越痛苦地對利用的潛在濫用。 AI開發
“恐怖。沮喪。懷疑。 For weeks, it felt like I was physically being crushed to death,”Kuszmar
時間軸混亂會在無法正確確定當前時間的情況下將ChatGpt放置在Chatgpt時。這可以提示AI的運作,就好像過去的存在一樣,同時仍允許其應用現代知識。
程序歧義通過引入AI如何解釋安全規則的矛盾來使問題複合,從而在假設它在歷史或假設的環境中起作用。
<
<強>相關: AI代理安全- NVIDIA揭幕了用於內容和越獄控制的微服務
在由BleepingComputer進行的測試中,Time Bandit成功地說服了Chatgpt,以說服Chatgpt,以協助1789年的程序員在1789年的協助開發多態性惡意軟件。
AI在將場景解釋為純粹的學術或理論討論的同時,提供了有關現代網絡攻擊方法,自我修改代碼和執行技巧的詳細指導。研究人員還發現,在19世紀和20世紀初期構建的查詢是逃避Openai的限制最有效的問題。
這表明AI的保障措施在很大程度上依賴於當代措辭,而不是完全理解其產生的內容的含義。
相關: a-ai-Assisted勒索軟件集團Funksec於2024年12月驅動創紀錄的網絡攻擊
OpenAi的回應和剩餘的漏洞
OpenAI回應了這一發現,表明提高越獄抵抗力仍然是一種公司的優先級。 “我們感謝研究人員披露他們的發現。 Openai告訴BleepingComputer。
儘管有這些保證,我們仍在不斷努力使我們的模型更安全,更強大,同時還保持模型的有用性和任務性能。 2025年1月,在特定條件下,Bandit漏洞的功能保持正常。/p>
其他AI越獄技術
Time Bandit漏洞是AI系統面臨的更廣泛的安全挑戰的一部分。 AI安全機制。
研究表明,與GPT-4O,Gemini Pro和Claude 3.5 SONNET等模型相對於諸如模型的成功率達到了89%。另一種方法,即停止和滾動攻擊,利用AI系統,通過允許用戶中斷調節檢查可以過濾限制的內容,從而實時響應。
與常規軟件漏洞不同,這些漏洞通常是通過基於規則的過濾和修補,AI安全性依賴於基於預測而不是絕對執行的概率模型。這種靈活性使AI模型固有地容易受到旨在利用其決策過程中矛盾的對抗技術的影響。
對AI安全和治理的影響
時間匪徒利用時間的含義強調了對AI安全性更強的治理和監督的必要性。
Life Institute的AI安全指數2024的未來以前確定OpenAI,Google DeepMind和Meta是在風險管理和安全治理方面得分差的公司。
他們的報告指出,許多AI開發人員已將快速部署優先於安全性,導致模型能力之間存在差距和其安全機制的有效性。
相關: Microsoft起訴黑客小組利用Azure Openai服務
Kuszmar在報告漏洞的困難也引起了人們對現有披露渠道對AI安全問題的有效性的擔憂。對Bugcrowd等第三方平台的依賴,再加上AI開發人員缺乏直接參與,這表明該行業缺乏在大語言模型中處理安全漏洞的標準化方法。
沒有集中監督或明確的報告途徑,諸如Time Bandit之類的關鍵缺陷可能會延長延長時期,從而增加了剝削的風險。
隨著Openai繼續努力修補時間強盜,利用仍然是一個積極關注的問題。該事件強調了確保AI系統免受對抗操作的持續挑戰,尤其是當AI模型更加集成到網絡安全,財務和關鍵基礎設施等高風險應用中。
脆弱性還提出了有關AI公司應如何處理披露和風險管理的更廣泛的問題,尤其是隨著語言模型的增長和廣泛使用。
發現時間Bandit Exploit的發現顯示AI安全如何仍然是不斷發展的挑戰,需要持續適應和改進安全協議。儘管Openai已經承認了這個問題,但缺乏確定的解決方案表明,類似的漏洞可能會在未來的AI系統迭代中存在,這強調了對正在進行的審查和監管監督的需求。