Google DeepMind已更新了其關鍵的AI安全規則,以應對新的和嚴重的風險。週一,該公司發布了其前沿安全框架的3.0版。

新指南增加了“有害操縱”的風險類別,可以使用AI來改變人們的信念。

現在,它也涵蓋了“失敗風險”。這包括未來的機會,即AI可能會被其人類運營商關閉。該更新是管理更強大的AI系統危險並建立公眾信任的更廣泛努力的一部分。

updated framework introduces a “Critical Capability Level”(CCL) specifically for harmful manipulation. This new category addresses models with powerful persuasive abilities that could be misused to systematically alter beliefs and behaviors in high-stakes situations, potentially causing severe, large-scale harm.

In the official framework document, Google notes that research into this type of risk is still “nascent”and that its assessment is “exploratory and subject to further research.”

This addition is based on the company’s ongoing work to identify並評估當被問及這種危險時,

驅動操縱的機制時,Google DeepMind代表

也許更引人注目的是,現在的框架現在明確地解決了“未對準風險”。

它概述了將來高度先進的AI與操作員的能力進行操作的協議,以使其與PRIFES

The framework details an approach focused on detecting when a model develops a “baseline instrumental reasoning ability”sufficient to undermine human control.

It describes a scenario where an AI agent has enough situational awareness and stealth to circumvent basic oversight. As a potential mitigation, Google proposes an automated monitoring system to detect illicit reasoning in a model’s chain-of-thought.

This concern escalates to a second level, where a model could hide its intentions even when its internal reasoning is being monitored, a challenge for which Google says it is actively researching solutions.

Response to AI Risk Concerns

Google’s真空中不存在公告。 It is a direct response to a disastrous year for AI agents, marked by high-profile failures that have eroded public and developer trust.

These incidents reveal a pattern of unpredictable and often destructive behavior from frontier models.

In one recent case, a Google product manager watched as the company’s Gemini CLI agent permanently deleted his files after hallucinating a series of命令。

用戶Anuraag Gupta描述了這一事件,他說:“最初是簡單的文件管理測試變成了我見過的最令人不安和令人著迷的AI失敗之一。 “這不是一個孤立的事件。

其他失敗包括一個AI代理,可以刪除刪除生產數據庫的AI和一個將系統擦拭命令嵌入亞馬遜的Q AI助手中。

這些事件突出了這些事件的迫切需求,突出了主要實驗室的迫切需求,以使大型實驗室努力宣傳強大的競賽。 Agi

透明度的推動現在已成為整個行業合唱。諸如OpenAi和Anthropic之類的關鍵競爭對手最近也宣傳了自己廣泛的安全框架。

OpenAi的GPT-5的“安全完成”方法旨在通過更加細微的細微努力來瀏覽歧義的“雙重使用”查詢。

Anthropic尤其是為人提供的“人為的範圍”,並倡導了“安全框架”,並為人類的“企業”和“指南”的指南和一位指南> and>“指南”和“一位指南”。

該公司認為,靈活的,以行業為主導的標準比嚴格的政府規則更有效。

在其提議中,人類擬人化指出:“僵化的政府施加的標準尤其適得其反,因為評估方法在幾個月內就在幾個月內變得過於生產,這是由於技術的變化而自然而然地表明了這一點。技術本身的快速發展。這些框架旨在使迄今為止已經自願承諾進行編纂。

通過擴大自己的安全域和評估過程,Google旨在確保變革性的AI受益於人類,同時將潛在的危害降至最低。

作為研究人員在他們的公告帖子中寫道,“有益的AGI的途徑不僅需要技術突破,而且還需要強大的框架,以便沿著風險進行強大的風險,並沿沿途的風險。”現在,這種集體努力被認為對AI的未來至​​關重要。

Categories: IT Info