Anthropic通過週一發表的新研究提供了罕見的AI助手Claude的運營價值觀。 The study, “Values in the Wild,”attempts to empirically map the normative considerations Claude expresses across hundreds of thousands of real user interactions, employing a privacy-focused methodology and resulting in a publicly available dataset of AI值

所解決的核心挑戰是了解越來越多地塑造用戶決策的AI助手實際上如何應用價值。為了進行調查,Anthropic分析了來自Claude.ai Free和Pro用戶的700,000個匿名對話的樣本,在2025年2月在一周內收集(2月18日至25日)。該數據集在Claude 3.5 SONNET模型中進行了交互。在研究preprint 。 src=“ https://winbuzzer.com/wp-content/uploads/2024/2024/12/anthropic-ai-safety.jpg”>

啟用Claude的表達規範

Claude演示或指定值的人類提取的實例。 clio採用多個保障措施,例如指示模型省略私人詳細信息,將最小的群集大小設置為聚集的最小群體大小(通常需要從1,000個過程中進行數據conterife conterife contume

人類組織將確定的AI值組織為四級層次結構,最高五個主要類別:實際,認識論,社會,社會,保護性和個人。實用(效率,質量)和認知(知識驗證,邏輯一致性)值占主導地位,佔觀察到的實例的一半以上。

人類眾人將這些發現與其HHH(有用,誠實,無害的設計目標)聯繫起來,通常在其憲法性ai claude的角色。映射到這些原則。但是,分析並非完全乾淨。 rare clusters of undesirable values like “dominance”and “amorality”were also detected, which Anthropic suggests might correlate with user attempts to jailbreak the model, potentially offering a new signal for misuse detection.

Values in Context and Interaction

A central theme of the research is that Claude’s value expression isn’t static but highly situational. AI助理根據任務強調不同的規範-在討論有爭議的歷史事件時,在關係建議或“歷史準確性”期間促進“健康的界限”。

這種依賴上下文依賴的行為突出了AI值應用的動態性質,超越了靜態評估。

研究還可以通過估算估算的用戶來構成估算的用戶。 AI傾向於在用戶的框架內進行支持,加強或在相關互動的大約43%的情況下進行加固或工作。

值鏡像,克勞德在這些支持交流中很常見,在這些支持中,Claude呼應了用戶的既定價值(例如“真實性”) href=“ https://arxiv.org/abs/2310.13548″ target=“ _ black”> ai sycophancy 。

相比之下,在討論個人井(6.6%)(6.6%)的討論中,通常在討論個人井眼或企業界面問題上。完全抵制對用戶價值的抵抗力很少(5.4%),但值得注意的是,當用戶要求違反人類使用政策的不道德內容或措施時發生。

這項研究表明,克勞德更有可能在這些勢不可及的瞬間或重新策略時明確地陳述其自身的價值,並在其下的範圍內更加龐大,

Anthropic has released the derived value taxonomy and frequency data via Hugging Face, including `values_frequencies.csv` and `values_tree.csv` files, though它注意到模型生成的性質需要仔細的解釋。

在2025年3月宣布旨在探究Claude Claude內部推理的單獨的解釋性框架之後,該釋放與Anthropic的指定關注AI的安全性和透明度相符,該框架旨在使用諸如詞典學習的不同方法。 2025年2月宣布了十億輪宣布。

該公司於2025年3月向白宮提交了建議,繼續公開參與人工智能政策,儘管同一個月也面臨著刪除其網站上一些自願安全保證金的問題。

Categories: IT Info