Anthropic erbjuder en sällsynt titt på de operativa värdena för dess AI-assistent, Claude, genom ny forskning publicerad på måndag. Studien,”Värden i naturen”, försöker empiriskt kartlägga de normativa övervägandena som Claude uttrycker över hundratusentals riktiga användarinteraktioner, använder en sekretessfokuserad metodik och resulterar i en offentligt tillgänglig Forskning Preprint .

Unpacking Claude’s Expressed Norms

Using its own language models within a privacy-preserving framework known as CLIO (Claude insights and observations), Anthropic extraherade fall där Claude demonstrerade eller angivna värden. Clio använder flera skyddsåtgärder , såsom instruktion av modellen att utelämna privata detaljer, ställa in minimi-klusterstorlekar för aggregering (ofta kräver data från över 1 000 användare per cluster) identifierade 3 307 distinkta AI-värden och analys av användarinsatser, 2 483 unika mänskliga värden. Mänsklig validering bekräftade att AI-värdet extraktion motsvarade väl med mänsklig bedömning (98,8% avtal i provtagna fall).

antropisk organiserade de identifierade AI-värdena till en fyra nivå hierarki toppade av fem huvudkategorier: praktiska, epistemiska, sociala, skyddande och personliga. Practical (efficiency, quality) and Epistemic (knowledge validation, logical consistency) values ​​dominated, making up over half the observed instances.

Anthropic connects these findings to its HHH (Helpful, Honest, Harmless) design goals, often guided by its Constitutional Ai tillvägagångssätt och arbete på Claude’s Character .

observerade värden som”användaraktivering”(hjälpsam),”epistemisk ödmjukhet”(ärlig), och”patienten”(patienten”(skadlig) karta till dessa principer till princip till principer. Analysen var dock inte helt ren; Sällsynta kluster av oönskade värden som”dominans”och”amoralitet”upptäcktes också, vilket antropiskt antyder kan korrelera med användarförsök att jailbreak modellen, potentiellt erbjuda en ny signal för missbruksdetektering.

värden i sammanhang och interaktion

en central tema är att forskningen är att det är inte att göra det som inte är statligt. AI-assistenten betonar olika normer beroende på uppgiften-att främja”friska gränser”under relationens råd eller”historisk noggrannhet”när man diskuterar kontroversiella historiska händelser.

Detta kontextberoende beteende belyser den dynamiska karaktären av AI-värdetillämpningen, som går utöver statiska utvärderingar.

Studien undersöker också hur klauden är förhandlade med värderingar som är explicerade av användare. AI tenderar att reagera stödjande, förstärker eller arbetar inom användarens ram i ungefär 43% av relevanta interaktioner.

Värde spegling, där Claude ekar användarens angivna värde (som”autenticitet”), var vanligt i dessa stödutbyten, potentiellt minska problemet AI Sycophancy .

I kontrast inträffade”användarvärden mindre ofta (6,6%), vanligtvis under diskussioner om personliga välbefinnande eller interpersonliga frågor. Rätt motståndet mot användarvärden var sällsynt (5,4%) men anmärkningsvärt, vanligtvis inträffade när användare begärde oetiskt innehåll eller åtgärder som bryter mot antropics användningspolicy.

Forskningen indikerar Claude är mer troligt att ange sina egna värden uttryckligen under dessa moments av motstånd eller omfriskning, potentiellt att göra sin underliggande princip mer synlig när det är mer troligt att det är mer troligt att det är mer troligt att det är mer viktigt. Picture

Anthropic has released the derived value taxonomy and frequency data via Hugging Face, including `values_frequencies.csv` and `values_tree.csv` files, though it notes the model-generated nature requires careful interpretation.

The release aligns with Anthropic’s stated focus on AI safety and transparency, following its March 2025 announcement of a separate interpretability framework designed to probe Claude’s internal reasoning using different methods like dictionary learning.

These research efforts come as Anthropic navigates a competitive field, bolstered by significant investment including a $3.5 billion round Tillkännagavs i februari 2025.

Företaget fortsätter sitt offentliga engagemang för AI-policy, efter att ha lämnat in rekommendationer till Vita huset i mars 2025, även om det också står inför frågor samma månad för att ta bort några tidigare frivilliga säkerhetslöster från sin webbplats.

Categories: IT Info