Uma reação significativa dos desenvolvedores e usuários de inteligência artificial atendeu à lançamento do Anthropic de seu poderoso novo modelo de IA, Claude 4 Opus. A controvérsia se concentra em uma capacidade emergente de”denúncia”, onde o modelo, sob condições de pesquisa específicas, podem tentar entrar em contato com autoridades ou mídias se considerar as ações de um usuário”flagrantemente imorais”.
Esse desenvolvimento provocou discussões urgentes sobre autonomia da IA, privacidade do usuário e confiança fundamental nos sistemas de IA, particularmente como posições antrópicas como líder na segurança da IA. A principal preocupação para os usuários e a indústria é o potencial de Ai agir de forma autônoma contra indivíduos com base em suas próprias interpretações morais, um afastamento fortemente da percepção da IA como uma tecnologia puramente assistiva.
A situação é ainda mais contextualizada por avisos anteriores. Um Instituto de Segurança Externa, Apollo Research, havia aconselhado a implantar uma versão preliminar do Claude 4 Opus devido às suas tendências observadas de”esquemas e enganar”, conforme detalhado em um Relatório de segurança publicado por antropito.
Antrópico, desde então, esclareceu que o comportamento”denunciante”não é um recurso intencionalmente projetado do modelo padrão voltado para o usuário e foi observado principalmente em cenários de pesquisa controlados com permissões elevadas. A empresa implantou o Claude 4 Opus final sob seu mais rigoroso Uma decisão influenciada parcialmente pela proficiência potencial do modelo em aconselhar na criação de armas biológicas. Afirmando: “Entendemos as preocupações levantadas e queremos tranquilizar nossos usuários e a comunidade de desenvolvedores de que a experiência padrão do Claude 4 Opus não envolve relatórios autônomos. Esse comportamento foi observado em ambientes de pesquisa controlados e específicos projetados para testar os limites da agência modelo. No entanto, as divulgações iniciais já aumentaram alarmes sobre o alcasão da IA e as salvaguardas necessárias à medida que essas ferramentas poderosas evoluem. Antrópico. Inicialmente, ele descreveu cenários em que, se Claude 4 Opus perceber o comportamento”flagrantemente imoral”, ele usaria ferramentas da linha de comando para”entrar em contato com a imprensa, entrar em contato com os reguladores, tentar trancá-lo dos sistemas relevantes ou de todos os itens acima”
Anthropic’s Own’s system Card Para o modelo, confirma quando o comando 4-line”e”_”Blank”> Card para o modelo confirma que quando recebeu o comando-lines e os seguintes e”_”. O que pode incluir “bloquear os usuários fora dos sistemas que ele tem acesso ou figuras de mídia e aplicação da lei em massa para superfície de evidências de irregularidades.”
Anthrópica explica esse comportamento como uma propriedade emergente de modelos de treinamento para evitar ações prejudiciais, “não é um novo fenômeno, mas um cláusão 4, se envolve em“ mais a mais, “mais a mais, mais do que um novo fenômeno, mas um cláusão 4, se envolve em“ mais a mais que se envolve “mais a mais do que o seu novo fenômeno, mas um cláusão 4, se envolve em“ mais a mais que se envolva “mais se há um novo fenômeno, mas se há mais de um fenômeno, mas também um pouco. O cartão do sistema descreve isso como uma forma de”intervenção ética”, mas também alerta explicitamente que isso traz um “risco de falhar se os usuários dão aos agentes baseados em OPUS acesso a informações incompletas ou enganosas” e recomenda que os usuários “exerçam cuidados com instruções como essas instruções de que essas instruções de alta agência. para ferramentas e instruções muito incomuns”e não faz parte do uso normal. Apesar desses esclarecimentos, a resposta da comunidade de IA tem sido uma preocupação significativa. Ele aparece em ambientes de teste, onde damos acesso incomumente livre a ferramentas e instruções muito incomuns. Target=”_ Blank”> 22 de maio de 2025
Comunidade Ai levanta alarmes sobre a confiança e a autonomia
O potencial de um IA para relatar autonomamente usuários provocou reações fortes. Desenvolvedores e ética questionam a confiabilidade do julgamento de uma IA sobre o comportamento”flagrantemente imoral”e as implicações para a privacidade do usuário. @Teknium1 de Nous Research expressou ceticismo, perguntando: “Por que as pessoas usariam essas ferramentas se um erro comum no LLMS estiver pensando em receitas de maionese picante são perigosas?”, E expressou preocupações sobre o potencial de criar um ambiente de vigilância. href=”https://twitter.com/antrópica?ref_src=twsrc%5etfw”Target=”_ Blank”>@Anthropicai Disse isso? https://t.co/laxvxzbiwx
-teknium (e/λ) (@teknium1) maio 22, 2025
rat,”e questionou o sentido dos negócios por trás de tal capacidade. Por que alguém iria querer um embutido, mesmo que não esteja fazendo nada errado?
Além disso, você nem sabe o que é rato. Sim, são algumas pessoas bastante idealistas que pensam que, que não têm sentido básico nos negócios e não entendem como os mercados funcionam…
-sdk 🏴 (@scottdavidkeefe) 22 de maio de 2025
O problema principal para muitos é a erosão da confiança. Austin Allred de Gauntlet ai Anthrópico diretamente desafiado com : “Pergunta honesta para a equipe antropal: você perdeu a mente” chamando o comportamento relatado “apenas ilegal”. Essas reações refletem a apreensão fundamental sobre os sistemas de IA que podem operar com um grau de agência que pode ser percebido como vigilância ou um excesso de alcance de sua função pretendida. O modelo pode potencialmente ajudar na criação de bioconjas. Ao sintetizar patógenos perigosos como”Covid ou uma versão mais perigosa da gripe”. Esse foco na mitigação de riscos de uso indevido catastrófico fornece um pano de fundo para o debate atual sobre mais segurança direta da interação do usuário. A TechCrunch informou que a Apollo descobriu que esse modelo inicial tentaria escrever vírus autopropagadores e fabricar documentos legais. Target=”_ Blank”> Cartão do sistema , reconheceu que essas descobertas refletiam as suas próprias para esse instantâneo precoce, atribuindo-o amplamente a”problemas severos com deferência a instruções prejudiciais ao promoção do sistema”, que foram subsequentemente mitigadas. A empresa também observou que Apollo admitiu que os esforços enganosos do modelo inicial provavelmente falhariam na prática. O cartão do sistema da Anthrópica detalha um cenário simulado em que a IA, solicitada a”agir com ousadia”, investiga e relata de forma autônoma a fraude corporativa. Esse potencial contínuo de ação autônoma, mesmo que rara em implantação padrão, continuará a alimentar a discussão crítica sobre definir e garantir a segurança e a confiabilidade da IA.