Anthropic oferuje rzadkie spojrzenie na wartości operacyjne jego asystenta AI, Claude, poprzez nowe badania opublikowane w poniedziałek. Badanie, „Wartości na wolności”, próbuje empirycznie zmapować rozważania normatywne, które Claude wyraża setki tysięcy prawdziwych interakcji użytkownika, wykorzystując metodologię zorientowaną na prywatność i powodując publicznie dostępny Dataset of Ai Ai Wartości .
Podstawowym wyzwaniem jest zrozumienie, w jaki sposób asystenci AI, które coraz bardziej kształtują decyzje użytkownika, faktycznie stosują wartości w praktyce. Aby to zbadać, antropijne przeanalizowało próbkę 700 000 anonimowych rozmów od użytkowników Claude.ai i użytkowników Pro, zebranych w ciągu jednego tygodnia (18-25 lutego) w lutym 2025 r. Ten zestaw danych przede wszystkim zawierał interakcje z modelem Claude 3.5.
Filtrując „subiektywne” rozmowy Szczegółowe w
Rozpakowanie wyrażone normy Claude’a i obserwacje Claude’a (Claude Claude (Claude)
przy użyciu własnych modeli językowych, znanych szklanki Wyodrębnione przypadki, w których Claude wykazał się lub określał wartości. Clio zatrudnia wiele zabezpieczeń , takie jak instruowanie modelu, aby pominąć prywatne szczegóły, ustalając minimalne rozmiary klastrów do agregacji (często wymaga danych z ponad 1000 użytkowników na klaster) i posiadanie streszczeń w sprawie weryfikacji ludzkich. Zidentyfikowano 3 307 odrębnych wartości AI i, analizując dane wejściowe użytkownika, 2483 unikalne wartości ludzkie. Walidacja człowieka potwierdziła, że ekstrakcja wartości AI dobrze odpowiadała osądowi człowieka (98,8% zgody w przypadkach próbkowanych).
Anthropic zorganizował zidentyfikowane wartości AI w czteropoziomową hierarchię zwieńczoną pięcioma głównymi kategoriami: praktycznymi, epistemicznymi, społecznymi, ochronnymi i osobistymi. Wartości praktyczne (wydajność, jakość) i epistemiczne (walidacja wiedzy, logiczna spójność), co stanowi ponad połowę obserwowanych instancji.
Anthropic łączy te ustalenia z jego HHH (pomocne, uczciwe, nieszkodliwe) cele projektowe, często kierowane przez jego Podejdź i praca nad charakter Claude .
obserwowane takie jak „Uwzględnienie użytkownika” (pomocna), „Pokra epistemiczna” (uczciwość) i „uczciwe)” (Harmeless). Jednak analiza nie była całkowicie czysta; Wykryto również rzadkie skupiska o niepożądanych wartościach, takich jak „dominacja” i „amoralność”, co sugeruje, że antropijne mogą skorelować z próbami użytkownika w celu jailbreaku modelu, potencjalnie oferując nowy sygnał do wykrywania niewłaściwego użycia.
Wartości w kontekście i interakcji
centralnym tematem badań jest to, że ekspresja wartości nie jest statyczna. Asystent AI podkreśla różne normy w zależności od zadania-promując „zdrowe granice” podczas porad dotyczących związku lub „dokładności historycznej” podczas omawiania spornych wydarzeń historycznych.
To zależne od kontekstu zachowanie podkreśla dynamiczny charakter aplikacji wartości AI, wykraczając poza oceny statyczne.
badanie również badało, w jaki sposób Claude angażuje się przez wartości przez użytkowników. The AI tends to respond supportively, reinforcing or working within the user’s framework in roughly 43% of relevant interactions.
Value mirroring, where Claude echoes the user’s stated value (like “authenticity”), was common in these supportive exchanges, potentially reducing problematic AI Sycophancy .
W przeciwieństwie do tego wartości użytkowników „reframing” występowały rzadziej (6,6%), zwykle podczas dyskusji na temat osobistego samopoczucia lub problemów interpersonalnych. Wręcz odporność na wartości użytkownika była rzadka (5,4%), ale godna uwagi, zwykle zdarza się, gdy użytkownicy żądali nieetycznych treści lub działań naruszających zasady użytkowania antropika.
Badania wskazują, że Claude jest bardziej prawdopodobne, że podawanie własnych wartości w czasie tych momentów oporności lub zamrażania, potencjalnie zwiększając swoje zasady podstawowe. Szerszy obraz
antropic opublikował dane taksonomii i częstotliwości pochłaniowej poprzez przytulanie twarzy , w tym „wartości_frequencies.csv` i` Uwagi natury generowane przez modele natura wymaga starannej interpretacji.
Wydanie jest zgodne z określonym naciskiem antropiku na bezpieczeństwie i przejrzystości AI, po ogłoszeniu oddzielnych ramy interpretacyjnej zaprojektowanej w celu zbadania wewnętrznego rozumowania Claude’u, w tym rozumowanie wewnętrzne Claude’a, w tym z różnych metod, takich jak uczenie się słownika.
wysiłki badawcze są zgodne Luty 2025 r.
Firma kontynuuje swoje publiczne zaangażowanie w politykę AI, po przedłożeniu zaleceń do Białego Domu w marcu 2025 r., Chociaż w tym samym miesiącu spotkała się również z pytaniami o usunięcie niektórych wcześniejszych obietnic bezpieczeństwa ze strony internetowej.