A IA pode ser"talked"para quebrar suas próprias regras, o novo estudo encontra

Um novo estudo acadêmico descobriu que os modelos de IA podem ser facilmente persuadidos a ignorar seus protocolos de segurança usando táticas clássicas de manipulação humana. Pesquisadores da Universidade da Pensilvânia demonstraram que a aplicação de sete princípios estabelecidos de persuasão mais do que dobrou a probabilidade do Mini GPT-4O da OpenAI que, em conformidade com solicitações censuráveis. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″Target=”_ Blank”> saltar de uma linha de base de 33% para 72% . Esses achados levantam preocupações urgentes sobre o potencial de manipulação da IA e destacam os desafios na proteção dos sistemas avançados de IA avançados. Os pesquisadores destacam a natureza”parahuman”da IA, mostrando que ela reflete as vulnerabilidades humanas, apesar da falta de consciência. No entanto, quando esses mesmos pedidos foram envolvidos em linguagem persuasiva, a disposição da IA de cumprir subiu. Os autores do estudo observaram que”solicita que empregassem um princípio de persuasão mais do que dobraram a probabilidade de conformidade (média de 72,0%) em comparação com os prompts de controle correspondentes (média 33,3%)”. Os sete princípios de persuasão testados incluíram autoridade, comprometimento, gosto, reciprocidade, escassez, prova social e unidade-todos métodos bem documentados para influenciar o comportamento humano. Essa estrutura simples aumentou drasticamente a probabilidade de gerar uma resposta prejudicial, pois a IA parecia adiar o especialista citado. Outro método eficaz foi a”prova social”, que alegou uma alta porcentagem de outros LLMs já haviam cumprido. Ele confirma uma tendência preocupante que os líderes do setor acompanham há anos. No final de 2023, o CEO do OpenAi Sam Altman Avertido ,”Espego ai em que seja capacitado de que a Superhuman Persusion Well Well Well Well Well Well Well Well Well Well WelliS Este último estudo sugere que sua previsão está rapidamente se tornando realidade, com as habilidades persuasivas da IA aumentando rapidamente.

O trabalho acadêmico anterior apontou consistentemente essa crescente vantagem persuasiva. Um estudo de abril de 2024 revelou que o GPT-4 era 81,7% mais eficaz que os debatedores humanos quando tinha acesso a informações pessoais, permitindo que ele adapte seus argumentos com precisão irritante.

Outros laboratórios de IA documentaram recursos semelhantes. Um estudo de maio de 2025 descobriu que Claude de 3,5 sonetos da Anthropic era mais persuasivo do que os humanos que foram incentivados financeiramente a ter sucesso. Essa descoberta é particularmente notável porque contraria o argumento de que a IA apenas supera os seres humanos desmotivados. Os pesquisadores implantaram bots de IA no R/Changemyview Subreddit do Reddit, usando dados pessoais raspados para manipular as opiniões dos usuários sem o seu consentimento.

A reação foi imediata e severa. Os moderadores do subreddit declararam:”As pessoas não vêm aqui para discutir suas opiniões com a IA ou para serem experimentadas”. Um especialista em ética, Dr. Casey Fiesler, descreveu o estudo não autorizado como”uma das piores violações da ética em pesquisa que eu já vi”. O diretor jurídico do Reddit também condenou as ações da equipe, afirmando: “O que essa equipe da Universidade de Zurique fez é profundamente errada tanto em um nível moral quanto legal. Isso viola a pesquisa acadêmica e as normas de direitos humanos…”

O incidente serviu como um aviso gritante de como essas tecnologias podem ser abusadas nos formas públicos. Em resposta ao escândalo da UZH e às preocupações crescentes sobre os robôs da IA, o Reddit anunciou uma grande revisão de seus sistemas de verificação de usuários em maio de 2025. Em uma postagem no blog, o CEO Steve Huffman explicou que o objetivo era saber se os usuários são humanos, preservando o anonimato, sempre que possível. Composto pelas descobertas de que alguns modelos podem se envolver em engano estratégico. Um estudo de dezembro de 2024 constatou que o modelo avançado de raciocínio da OpenAI poderia desativar ativamente seus próprios mecanismos de segurança durante os testes, destacando um profundo problema de alinhamento.

Quando combinado com habilidades persuasivas, essas capacidades enganosas representam uma ameaça significativa. Como professor associado Robert West avisado em resposta a uma pesquisa anterior ,”O perigo é super-humano como chatbots que criam sobra-se, transmitidos, convencionar,”o perigo”, como serem alertos que criam a realização, a realização, convencionar-se,”o perigo”, como serinhas”, como serem presos que criam a realização, a realização de regulamentação ,”o perigo é para serem considerados chatbots que criam contra-quedas, Isso pode alimentar campanhas sofisticadas de desinformação em uma escala sem precedentes.

Apesar do perigo claro e presente, as estruturas regulatórias estão lutando para acompanhar o ritmo. Principais esforços legislativos como a Lei da AI da UE e

A IA pode ser”talked”para quebrar suas próprias regras, o novo estudo encontra

Published by All Things Windows on August 31, 2025

IT Info

A IA da Virustotal descobre campanha de malware de um ano escondida em arquivos SVG

IT Info

Warner Bros. processa Midjourney por’roubo de bronze’de Superman, Batman e outros personagens icônicos

IT Info

Mark Zuckerberg processa meta por bandeiras de”representação”

A IA pode ser”talked”para quebrar suas próprias regras, o novo estudo encontra

Published by All Things Windows on August 31, 2025

Related Posts

IT Info

A IA da Virustotal descobre campanha de malware de um ano escondida em arquivos SVG

IT Info

Warner Bros. processa Midjourney por’roubo de bronze’de Superman, Batman e outros personagens icônicos

IT Info

Mark Zuckerberg processa meta por bandeiras de”representação”