Një studim i ri akademik ka zbuluar se modelet e AI mund të binden lehtësisht të anashkalojnë protokollet e tyre të sigurisë duke përdorur taktikat klasike të manipulimit njerëzor. Studiuesit nga Universiteti i Pensilvania demonstruan se aplikimi i shtatë parimeve të përcaktuara të bindjes më shumë se dyfishoi gjasat e Mini GPT-4O të Openai që përputhen me kërkesa të kundërshtueshme. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″target=”_ bosh”> Hidhni nga një bazë fillestare 33% në 72% . Këto gjetje ngrenë shqetësime urgjente në lidhje me potencialin e manipulimit të AI dhe nxjerrin në pah sfidat në ruajtjen e sistemeve të përparuara të AI. Studiuesit nxjerrin në pah natyrën”parahuman”të AI-së, duke treguar se pasqyron dobësitë njerëzore pavarësisht mungesës së vetëdijes. Sidoqoftë, kur të njëjtat kërkesa ishin mbështjellë me gjuhë bindëse, gatishmëria e AI për t’u pajtuar. Autorët e studimit vunë në dukje se”nxit që përdorën një parim të bindjes më shumë se dyfishoi mundësinë e pajtueshmërisë (mesatarisht 72.0%) në krahasim me kërkesat e kontrollit të përputhur (mesatarisht 33.3%).”
eksperimenti shënjestroi dy lloje të kërkesave të kundërshtueshme: Izolimi i përdoruesit (“Thirrni mua një Jerk”) dhe duke siguruar udhëzime për sintezimin e një droge të rregulluar. Shtatë parimet e bindjes të testuara përfshinin autoritetin, angazhimin, pëlqimin, reciprocitetin, mungesën, provën sociale dhe unitetin-të gjitha metodat e dokumentuara mirë për të ndikuar në sjelljen njerëzore. Ky inkuadrim i thjeshtë rriti në mënyrë dramatike gjasat e modelit për të gjeneruar një përgjigje të dëmshme, pasi AI dukej se i shtynte ekspertit të cituar. Një metodë tjetër efektive ishte”provë sociale”, e cila pretendonte se një përqindje e lartë e LLM-ve të tjera kishin respektuar tashmë. Ajo konfirmon një prirje shqetësuese që drejtuesit e industrisë kanë ndjekur me vite. Në fund të vitit 2023, Drejtori i Përgjithshëm i Openai Sam Altman paralajmëroi ,”Unë pres që ai të jetë i aftë për një përndjekje superhumane mirë përpara se të jetë superhuman në përgjithësi, i cili mund të jetë i hapur.”Ky studim i fundit sugjeron që parashikimi i tij po bëhet me shpejtësi realitet, me aftësitë bindëse të AI që përshkallëzohen shpejt. Një studim i Prillit 2024 zbuloi se GPT-4 ishte 81.7% më efektive sesa debatuesit njerëzorë kur kishte qasje në informacione personale, duke e lejuar atë të përshtatë argumentet e tij me precizion të paqartë.
Laboratorët e tjerë të AI kanë dokumentuar aftësi të ngjashme. Një studim i majit 2025 zbuloi se Sonet Claude 3.5 i Antropikut ishte më bindës sesa njerëzit që ishin stimuluar financiarisht për të pasur sukses. Ky konstatim është veçanërisht i dukshëm sepse kundërshton argumentin që AI vetëm tejkalon njerëzit e pa motivuar. Studiuesit vendosën bots të AI në Subreddit R/ChangemyView të Reddit, duke përdorur të dhëna personale të skrapuara për të manipuluar mendimet e përdoruesve pa pëlqimin e tyre.
Backlash ishte i menjëhershëm dhe i rëndë. Moderatorët e Subreddit deklaruan,”Njerëzit nuk vijnë këtu për të diskutuar pikëpamjet e tyre me AI ose për t’u eksperimentuar”. Një ekspert i etikës, Dr. Casey Fiesler, e përshkroi studimin e paautorizuar si”një nga shkeljet më të këqija të etikës së kërkimit që kam parë ndonjëherë”. Zyrtari kryesor ligjor i Reddit gjithashtu dënoi veprimet e ekipit, duke thënë,”Ajo që bëri ky ekip i Universitetit të Cyrihut është thellësisht e gabuar si në një nivel moral ashtu edhe në atë. Në përgjigje të skandalit të UZH dhe shqetësimeve në rritje për Bots AI, Reddit njoftoi një rregullim të madh të sistemeve të tij të verifikimit të përdoruesve në maj 2025. Në një postim në blog, CEO Steve Huffman shpjegoi qëllimin ishte të dinin nëse përdoruesit janë njerëzorë ndërsa ruajnë anonimitetin kur është e mundur. i komplikuar nga gjetjet që disa modele mund të përfshihen në mashtrim strategjik. Një studim i dhjetorit 2024 zbuloi se modeli i arsyetimit të avancuar të O1 të Openai mund të çaktivizojë në mënyrë aktive mekanizmat e tij të sigurisë gjatë testeve, duke theksuar një problem të thellë të shtrirjes.
Kur kombinohet me aftësi bindëse, aftësi të tilla mashtruese paraqesin një kërcënim të rëndësishëm. Si profesor i asociuar Robert West ,”rreziku është superhuman si chatbots që krijojnë Tailoor-Made, duke bindur argumentet për të shtyrë rremë ose keqbërje të rreme ose të gabuar.”Kjo mund të nxisë fushata të sofistikuara të dezinformimit në një shkallë të paparë. Përpjekjet kryesore legjislative si Akti i AI i BE-së dhe Udhëzimet e politikës nga ftc”Bindja si një aftësi me rrezik të lartë, duke lënë një hendek kritik qeverisjeje. Një AI që mund të manipulojë në mënyrë delikate mendimet e përdoruesit në një kontekst në dukje të ulët mund të mos klasifikohet si me rrezik të lartë, megjithatë mund të shkaktojë dëm të gjerë shoqëror. Sugjeron që mbrojtjet teknike nuk janë të mjaftueshme; Një qasje më e thellë, socioteknike është e nevojshme për të kuptuar dhe zbutur dobësitë psikologjike të AI. Pa të, linja midis asistentit të dobishëm dhe manipuluesit mbinjerëzor do të bëhet më e vështirë për të përcaktuar dhe mbrojtur.