Antrópica está oferecendo uma visão rara dos valores operacionais de seu assistente de IA, Claude, através de novas pesquisas publicadas na segunda-feira. O estudo, “Valores em The Wild”, tenta mapear empiricamente as considerações normativas que Claude expressa em centenas de milhares de interações reais do usuário, empregando uma metodologia focada na privacidade e resultando em um público disponível Valores .

O desafio principal abordado é entender como os assistentes de IA, que moldam cada vez mais as decisões do usuário, aplicam valores na prática. Para investigar isso, o Antrópico analisou uma amostra de 700.000 conversas anônimas de Claude.ai Free e Pro Usuários, coletados em uma semana (18 a 25 de fevereiro) em fevereiro de 2025. Esse conjunto de dados apresentava principalmente interações com o Modelo de Claude de 3,5 anos. Detalhado no

Unpacking Claude de claude e claudação e claudação e claudas e claudas claudas e claudas e claudas e claudas e claudas e as próprias idiomas e as próprias idiomas de claudas e claudas e as próprias idiomas e as próprias idiomas e as próprias idiomas de claudas e as próprias idiomas e as próprias idiomas de claudas e as próprias idiomas e as próprias idiomas de claudas e as próprias idiomas e as próprias idiomas usem suas próprias idiomas e a privação de claudas e a privação de claudas, e as próprias idiomas. Instâncias extraídas em que Claude demonstrou ou declarou valores. Clio emprega vários salvaguardas , como instruir o modelo para omitir detalhes privados, definir tamanhos mínimos para a agregação (geralmente requerem dados de mais de 1.000 usuários) e a agregação de mais de 1,00) e a agregação de mais de 1,00) e a agregação de mais de 1,00) e a agregação de mais de 1,00) e a agregação de mais de 1,00) e, em vez de, requer um signo de um relatório. identificou 3.307 valores distintos de IA e analisando entradas do usuário, 2.483 valores humanos únicos. A validação humana confirmou a extração de valor da IA, correspondia bem ao julgamento humano (concordância de 98,8% em casos amostrados). Prático (eficiência, qualidade) e epistêmico (valores de validação do conhecimento, consistência lógica) dominavam, compensando mais da metade das instâncias observadas. target=”_blank”>Constitutional AI approach and work on Claude’s character.

Observed values ​​like “user enablement”(Helpful), “epistemic humility”(Honest), and “patient wellbeing”(Inofensivo) mapear para esses princípios. No entanto, a análise não era totalmente limpa; Também foram detectados aglomerados raros de valores indesejáveis, como”domínio”e”amoralidade”, o que sugere que pode se correlacionar com as tentativas do usuário de jailbreak do modelo, potencialmente oferecendo um novo sinal para a detecção de uso indevido. O assistente de IA enfatiza normas diferentes, dependendo da tarefa-promovendo”limites saudáveis”durante o conselho do relacionamento ou a”precisão histórica”​​ao discutir eventos históricos contenciosos. A IA tende a responder de forma de forma, reforçando ou trabalhando dentro da estrutura do usuário em aproximadamente 43% das interações relevantes. Target=”_ Blank”> Ai Sycofância . A resistência total aos valores do usuário era pouco frequente (5,4%), mas notável, geralmente acontecendo quando os usuários solicitavam conteúdo ou ações antiéticas que violavam as políticas de uso do antropia. Imagem

Anthrópica liberou os dados de taxonomia e frequência de valor derivado via abrogando , incluindo `valores _freencies/A natureza gerada pelo modelo requer uma interpretação cuidadosa. Fevereiro de 2025.

Categories: IT Info