Anthropic bietet einen seltenen Einblick in die operativen Werte seines KI-Assistenten Claude durch neue Research, die am Montag veröffentlicht wurden. Die Studie „Werte in freier Wildbahn“ versucht, die normativen Überlegungen, die Claude in Hunderttausenden von realen Benutzerinteraktionen ausdrücken, empirisch zu kartieren, eine Methodik mit Privatsphäre zu verwenden und zu einem öffentlich verfügbaren .
Die zentrale Herausforderung besteht darin, zu verstehen, wie AI-Assistenten, die die Entscheidungen von Benutzern zunehmend formen, in der Praxis tatsächlich Werte anwenden. Um dies zu untersuchen, analysierte Anthropic eine Stichprobe von 700.000 anonymisierten Gesprächen von Claude.ai Free und Pro-Benutzern, die im Februar 2025 über eine Woche (18. Februar) gesammelt wurden. Dieser Datensatz enthielt hauptsächlich Wechselwirkungen mit dem Claude 3,5-Sonnet-Modell. Analyse, wie in der Forschungsvorbereitungen . src=”https://winbuzzer.com/wp-content/uploads/2024/12/anthropic-ai-safety.jpg”>
Packing Claude’s Expressions Normen ausgedrückt, nors, die in einem privaten Sprüche in einem privaten Sprüche, das als CLIO-FRESSIGLESSHOCHOGS ANSHOCHIGS UND ACHOCHOCHOGS ASSERVICS ASSERVEWORW ASSERVISIGS ASSERSING ASSERSING ASSERSING) (CLIO (P. extrahierte Fälle, in denen Claude Werte demonstrierte oder angegeben. Clio verwendet mehrere Sicherheitsvorkehrungen , wie das Anweisen des Modells, private Details zu unterwerfen, minimale Clustergrößen für die Aggregation zu erfordern. Identifizierte 3.307 unterschiedliche KI-Werte und analysierende Benutzereingaben, 2.483 eindeutige menschliche Werte. Die menschliche Validierung bestätigte, dass die KI-Wert-Extraktion gut mit dem menschlichen Urteil entsprach (98,8% Übereinstimmung in untersuchten Fällen). Praktische (Effizienz, Qualität) und epistemische (Wissensvalidierung, logische Konsistenz) dominiert, die über die Hälfte der beobachteten Instanzen ausmachen. Ai Ansatz und Arbeit an Claude’s Charakter . Die Analyse war jedoch nicht ganz sauber. Es wurden auch seltene Cluster von unerwünschten Werten wie „Dominanz“ und „Amoralität“ festgestellt, was anthropisch mit den Benutzerversuchen korrelieren könnte, was das Modell entspricht, was möglicherweise ein neues Signal für den Missbrauchserkennung anbietet. Der KI-Assistent betont unterschiedliche Normen, abhängig von der Aufgabe-die Förderung von „gesunden Grenzen“ während der Beziehungsberatung oder der „historischen Genauigkeit“ bei der Diskussion umstrittener historischer Ereignisse. Die KI neigt dazu, in ungefähr 43% der relevanten Wechselwirkungen im Rahmen des Benutzers zu reagieren und im Rahmen des Benutzers zu verstärken oder zu arbeiten. target=”_ leer”> ai sycophancy .
Im Gegensatz dazu traten Benutzerwerte weniger häufig auf (6,6%), typischerweise während Diskussionen über persönliches Wohlbefinden oder zwischenmenschliche Probleme. Die direkte Resistenz gegen Benutzerwerte war selten (5,4%), aber in der Regel, wenn Benutzer unethische Inhalte oder Aktionen gegen die Nutzungsrichtlinien von Anthropic forderten. Bild
Anthropic hat die abgeleiteten Werttaxonomie-und Frequenzdaten veröffentlicht. Es stellt fest, dass die modellgenerierte Natur eine sorgfältige Interpretation erfordert. Kündigte im Februar 2025 angekündigt.