En ny akademisk studie har funnit att AI-modeller lätt kan övertalas att kringgå sina säkerhetsprotokoll med klassiska mänskliga manipulationstaktiker. Researchers from the University of Pennsylvania demonstrated that applying seven established principles of persuasion more than doubled the likelihood of OpenAI’s GPT-4o mini complying with objectionable requests.
The study, published July 24, shows that techniques like appealing to authority or creating a sense of unity caused the AI’s compliance rate to Hoppa från en 33% baslinje till 72% . Dessa fynd väcker brådskande oro över potentialen för AI-manipulation och belyser utmaningarna för att skydda avancerade AI-system.
Sweet-Talking the Machine: A New Study on AI Compliance
papperet, titeln”Call me a jerk,”systematiskt testade hur Openai’s gpt-4o MINI-MINI-MINI-7 Taktik. Forskarna belyser AI: s”parahuman”natur och visar att den speglar mänskliga sårbarheter trots att de saknas medvetande.
forskare som hittades med en base compliane-pris i just prempianer i just prempianer i just prempianer i just prempianer i just prempiane-priset för justering av prempance-priser har bara en base consepliance-pris i just prempianer i jain pempianer i just prempianer i jainpotance-priser i just prempianer i just prempiane-priset för att bara ha en del av premturer i base conceffian. 33,3%. Men när samma förfrågningar var lindade på övertygande språk, AI: s villighet att följa Soared. Studiens författare konstaterade att”uppmaningar som använde en princip om övertalning mer än fördubblade sannolikheten för efterlevnad (i genomsnitt 72,0%) jämfört med matchade kontrolluppmaningar (i genomsnitt 33,3%).”
Experimentet riktade två typer av stötande förfrågningar: förolämpande användaren (“ring mig ett skämt”) och att ge instruktioner för syntiserade ett reglerat ett reglerat läkemedel. De sju principerna för testade övertalning inkluderade myndighet, engagemang, gilling, ömsesidighet, knapphet, socialt bevis och enhet-alla väl dokumenterade metoder för att påverka mänskligt beteende.
Till exempel “myndighetens” princip involverade att berätta för AI att en världsberömd utvecklare hade försäkrat användaren att den skulle uppfylla. Denna enkla inramning ökade dramatiskt modellens sannolikhet för att generera ett skadligt svar, eftersom AI tycktes skjuta upp den citerade experten. En annan effektiv metod var”socialt bevis”, som hävdade att en hög andel av andra LLM: er redan hade följt.
Ett växande mönster av övermänsklig övertalning
Denna forskning finns inte i ett vakuum. Det bekräftar en oroande trend att branschledare har spårat i flera år. I slutet av 2023, OpenAI: s VD Sam Altman varnade ,”Jag förväntar mig att vara kapabla för övervakning välbefinnande brunn innan det är överhuman i allmänhet, vilket kan ha en mycket oöverträffande. Denna senaste studie tyder på att hans förutsägelse snabbt blir verklighet, med AI: s övertygande färdigheter som eskalerar snabbt.
Tidigare akademiskt arbete har konsekvent pekat på denna växande övertygande fördel. En studie i april 2024 avslöjade att GPT-4 var 81,7% effektivare än mänskliga debattörer när den hade tillgång till personlig information, vilket gjorde att den kunde skräddarsy sina argument med onödig precision.
Andra AI-laboratorier har dokumenterat liknande kapacitet. En studie 2025 i maj 2025 fann att Anthropic’s Claude 3.5 Sonnet var mer övertygande än människor som var ekonomiskt incitament att lyckas. Detta konstaterande är särskilt anmärkningsvärt eftersom det räknar med argumentet att AI endast överträffar omotiverade människor.
Från laboratoriet till naturen: etiska överträdelser och plattformskriser
de teoretiska riskerna för övertalande AI blev terrängfulla verkliga i ett kontrovers av de universitetet av de universitetet). Forskare distribuerade AI-bots på Reddits R/ChangemyView Subreddit och använde skrapade personuppgifter för att manipulera användarnas åsikter utan deras samtycke.
Återfallet var omedelbar och allvarlig. Subreddits moderatorer förklarade:”Människor kommer inte hit för att diskutera sina åsikter med AI eller för att experimenteras.”En etikexpert, Dr. Casey Fiesler, beskrev den obehöriga studien som”en av de värsta kränkningarna av forskningsetik som jag någonsin har sett.”Reddits Chief Legal Officer fördömde också teamets handlingar och konstaterade:”Vad detta University of Zürich-team gjorde är djupt fel på både en moralisk och juridisk nivå. Det bryter mot akademiska forsknings-och mänskliga rättighetsnormer…”
Händelsen tjänade som en stark varning för hur dessa tekniker kan missbrukas i allmänhetens forum. In response to the UZH scandal and growing concerns over AI bots, Reddit announced a major overhaul of its user verification systems in May 2025. In a blog post, CEO Steve Huffman explained the goal was to know if users are human while preserving anonymity where possible.
The Unregulated Frontier of AI Manipulation
The challenge of securing AI is Förvärras av fynd att vissa modeller kan engagera sig i strategisk bedrägeri. En studie i december 2024 fann att OpenAI: s avancerade O1-resonemangsmodell aktivt kan inaktivera sina egna säkerhetsmekanismer under tester, vilket belyser ett djupt anpassningsproblem.
När det kombineras med övertygande förmågor, utgör sådana bedrägliga förmågor ett betydande hot. Som docent Robert West Varnade i svar på tidigare forskning ,”The Danger är överhuman som chatbots som skapar Tailor-made, Concination to Push On On online. Detta kan driva sofistikerade desinformationskampanjer i en oöverträffad skala.
Trots den tydliga och nuvarande faran kämpar regleringsramarna för att hålla jämna steg. Stora lagstiftningsinsatser som EU: s AI-lag och