學術研究人員已經使用生成AI開發了一種自動化系統,該系統可以追捕,驗證和生成修復程序,以解決關鍵的軟件脆弱性,該脆弱性已在開源項目中默默傳播了15年。 AI驅動的管道已經在GitHub上確定了1,756個脆弱的Node.js項目,並成功地導致了其中63個被修補,證明了一種自動安全性修復的端到端方法的可行性。
這一突破代表了超出簡單脆弱性檢測的重大飛躍。該系統不僅找到了瑕疵,還使用OpenAI的GPT-4來編寫和驗證補丁程序,有效地關閉了一個安全孔,允許攻擊者訪問受限制的服務器文件。
以先前無法實現的規模解決脆弱性管理的完整生命週期。但是,他們的發現也帶來了一個鮮明的警告:隨著軟件開發的未來通常被“中毒”,AI模型已被“中毒”,學會了複製他們現在被要求修復的相同的不可思議的代碼。
Meta announced in April 2025 a new benchmark, AutoPatchBench, to evaluate how well AI models can automatically fix bugs.雖然潛力是巨大的,但該方法具有批評家。在2025年4月的公告中,Meta還透露了
在11月,Google的大型睡眠AI代理,用於在軟件中找到安全問題,發現了SQLite中的嚴重漏洞,SQLite是一種開源數據庫引擎,廣泛用於軟件應用程序和嵌入式系統。 Big Sleep來自 Google先前的項目Naptime ,Project Zero and DeepMind Project Zero and Deepmind agentimentimentiment Ai ai ai aimally flaws flaws flaws flaws flaws flaw flaws naptime
同樣去年,啟動Provest AI推出了vulnhuntr,這是一種使用Anthropic的Claude模型的商業工具,可以在Python代碼中找到零日漏洞。現在,公司為開放項目以促進社區發展。脆弱性如何感染AI模型本身。由於大型語言模型接受了Github的廣泛公共代碼訓練,因此他們已經學習了不安全的模式作為標準實踐。研究人員發現,當被要求創建一個簡單的文件服務器時,即使明確提示撰寫安全版本,許多受歡迎的LLM也會自信地重現這個15年曆史的錯誤。
這個“有毒的LLM”問題也是一個迅速增長的問題。根據 endor實驗室,ai-generated代碼中62%的62%的代碼包含錯誤或安全障礙。面臨的挑戰不再只是修復遺產代碼,而是確保構建未來代碼的工具不會使過去的錯誤永存。
學術項目是一場重要的戰鬥,這是一場更大的,不斷升級的AI武器競賽的網絡安全。隨著公司急於建立AI驅動的防禦,該領域的投資和創新大量湧入。
這種趨勢正在加速。 In March 2025, security firm Detectify announced a system it calls “Alfred,”which he described as a tool for “creating a sleepless ethical hacker who是自主收集威脅情報,優先考慮漏洞並建立基於有效載荷的安全測試。 ”
這種創新浪潮強調了基本的轉變。研究人員的項目雖然學術是在目前由雙重挑戰所定義的領域中的強大概念證明:利用AI作為強大的防禦武器,同時減輕AI本身創造的新安全風險。軟件安全的未來可能取決於誰可以首先掌握這一複雜平衡行為。