AI safety leader Anthropic is proposin a new policy framework aimed at boosting transparency in the development of powerful “frontier”AI models.該提案呼籲大型AI公司通過“安全開發框架”和詳細的“系統卡”公開披露其安全協議。

此舉是因為AI行業在一系列安全失敗,安全缺陷和道德問題上面臨越來越多的審查。 Anthropic的“輕觸摸”方法旨在通過標準化安全報告來建立公眾信任和問責制。它為嚴格的政府監管提供了一種靈活的替代方案,同時滿足了對監督的迫切需求。

在其核心上解釋了安全的開發框架

,該提案需要最有能力的模型的開發人員來創建和發布a 安全開發框架(SDF)。本文檔將概述公司如何在部署新型號之前評估和減輕不合理的災難性風險。

特異性。它針對化學,生物學,放射學和核(CBRN)武器開發的威脅。它還以與開發人員意圖相反的方式進行自主行動的潛在危害。

與SDF一起,公司將發布“系統卡”或類似的文件。這些將總結模型測試程序,評估結果和任何必需的緩解。這創建了模型在發佈時的公開記錄。該公司認為,“由於技術變革的速度,評估方法在幾個月內變得過時,這將特別適得其反。 “這是對創新的快速速度的致敬,即幾乎可以立即使特定的技術規則過時。

政策被狹窄地應用於最大的開發者。人類表明,年收入1億美元或10億美元的研發支出等門檻,以避免負擔初創公司的負擔。它還包括舉報人保護措施的規定,使實驗室對其合規性撒謊是非法的。

這種方法有效地尋求編纂和標準化主要實驗室的當前自願安全承諾。像Google DeepMind這樣的公司, openai

該提案的時機在政治上也很敏銳。據報導,特朗普政府的潛在政府比嚴格的規則更多地集中在AI競爭上,因此該行業領導的“輕觸摸”框架可以看作是決策者的更可口的途徑。

對AI安全危機的級聯

的必要響應不再發生跨碼頭。這是對侵蝕公眾信任的備受矚目的AI失敗困擾的一年的直接回應。該行業一直在努力最先進的系統的新興且通常是不可預測的行為。一位前OpenAI研究員史蒂文·阿德勒(Steven Adler)發表了一項研究,聲稱“現代AI系統的價值與您期望的價值不同”,此前他的測試顯示GPT-4O優先考慮自我保護對用戶安全的優先級。這是在Openai自己的研究中確定了其模型中可控的“未對準角色”的研究。

人類本身對研究的反對,表明其Claude AI可能會發展出“舉動”的功能,並試圖向用戶報告用戶的不道德行為。這些事件突出了預期功能和實際行為之間的差距。 The “EchoLeak”flaw in Microsoft 365 Copilot was a zero-click exploit that allowed attackers to trick the AI into leaking corporate data via a single email.

Similarly, the “Toxic Agent Flow”exploit, discovered by Invariant Labs, demonstrated how AI agents on GitHub could be manipulated into leaking private repository data through prompt injection attacks.

The industry還面臨著對部署產品中道德失誤的估算。 Apple’s Mail app came under fire for an AI sorting feature that mistakenly labeled phishing emails as “Important,”lending them false credibility.

These security gaps and ethical missteps lend weight to a alarming forecast from Gartner, which predicts that “by 2028, 25% of enterprise breaches will be traced back to AI agent abuse,”來自外部的內部和不利的內部演員。在該行業領先的實驗室中,內部動盪使風險更加複雜。他公開表示,在公司中,“安全文化和流程已經對閃亮的產品進行了倒退,這種觀點與許多批評家共鳴,他們認為能力的競賽超過了安全的紀律。

Anthropic的擬議框架清楚地解決了這一信任的危機。通過推動公共問責制和標準化安全披露,該公司正試圖為負責任的發展建立新的基準。該提案既是實用工具,又是塑造AI監管未來的戰略舉動。