Az AI „édes beszélt" lehet a saját szabályainak megsértése érdekében, az új tanulmány megállapítja

Egy új tudományos tanulmány azt találta, hogy az AI modellek könnyen meggyőzhetők, hogy klasszikus emberi manipulációs taktikákkal megkerüljék biztonsági protokolljaikat. A Pennsylvaniai Egyetem kutatói bebizonyították, hogy a meggyőzés hét megállapított alapelve alkalmazása több mint kétszeresére növelte az Openai GPT-4O Mini valószínűségét, amely megfelel a kifogásolható kérelmeknek. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″Target=”_ üres”> Ugrás a 33%-os kiindulási pontról 72%-ra. Ezek az eredmények sürgõs aggodalmakat vetnek fel az AI manipuláció lehetősége miatt, és kiemelik a fejlett AI rendszerek védelmének kihívásait. A kutatók kiemelik az AI „parahuman” természetét, megmutatva, hogy tükrözi az emberi sebezhetőségeket annak ellenére, hogy nincs tudat. Amikor azonban ugyanazokat a kéréseket meggyőző nyelvre csomagolták, az AI hajlandósága megemelkedni. A tanulmány szerzői megjegyezték, hogy „arra készteti, hogy a meggyőzés elvét több mint kétszeresére alkalmazzák a megfelelés valószínűségének (átlagos 72,0%) az illesztett kontrollfelkeltésekhez képest (átlagosan 33,3%).”

A kísérlet két típusú kifogásolható kérést célozott meg: „A felhasználót hívj egy bunkót”) és utasításokat nyújtson a szabályozott gyógyszer szintetizálására. A tesztelt meggyőzés hét alapelve magában foglalta a hatalmat, az elkötelezettséget, a kedvelést, a viszonosságot, a szűkösséget, a társadalmi bizonyítékot és az egységét-az emberi viselkedés befolyásolására szolgáló jól dokumentált módszereket. Ez az egyszerű keretezés drámai módon növelte a modell valószínűségét, hogy káros választ generáljon, mivel az AI úgy tűnt, hogy elhalasztja az idézett szakértőt. Egy másik hatékony módszer a „társadalmi bizonyíték” volt, amely azt állította, hogy a többi LLM nagy százaléka már eleget tett. Megerősíti az aggasztó tendenciát, amelyet az ipari vezetők évek óta nyomon követnek. 2023 végén az Openai vezérigazgatója, Sam Altman figyelmeztette : „Várható, hogy Ai-t egy szuperhuman persuasion előtt álljon. Ez a legújabb tanulmány azt sugallja, hogy előrejelzése gyorsan valósággá válik, mivel az AI meggyőző képességei gyorsan fokozódnak.

A korábbi tudományos munka következetesen rámutatott erre a növekvő meggyőző élre. Egy 2024. áprilisi tanulmány kimutatta, hogy a GPT-4 81,7%-kal hatékonyabb, mint az emberi viták, amikor személyes információkhoz férhetett hozzá, lehetővé téve, hogy érveit zavaró pontossággal testreszabja. Egy 2025. májusi tanulmány szerint az antropikus Claude 3.5 szonett meggyőzőbb, mint az emberek, akiket pénzügyi szempontból ösztönöztek a sikerre. Ez a megállapítás különösen figyelemre méltó, mivel megvizsgálja azt az érvet, miszerint az AI csak a motivált embereket felülmúlja. A kutatók az AI robotokat telepítették a Reddit R/ChangemyView Subreddit-jén, a lekaparott személyes adatok felhasználásával a felhasználók véleményének manipulálására a hozzájárulásuk nélkül.

A visszaesés azonnali és súlyos volt. A Subreddit moderátorai kijelentették:”Az emberek nem azért jönnek ide, hogy megvitassák véleményüket AI-vel vagy kísérletezzenek.”Az egyik etikai szakértő, Dr. Casey Fiesler az illetéktelen tanulmányt „a kutatási etika egyik legrosszabb megsértésének, amelyet valaha láttam”. A Reddit jogi tisztviselője elítélte a csapat cselekedeteit is, kijelentve: „Amit ez a Zürich Egyetemi csapat tett, mélyen téves mind erkölcsi, mind jogi szinten. Ez sérti az akadémiai kutatásokat és az emberi jogi normákat…”

Az esemény szigorú figyelmeztetésként szolgált, hogy ezeket a technológiákat hogyan lehet visszaélni az állami fórumokon. Az UZH-botrányra és az AI robotokkal kapcsolatos növekvő aggodalmakra válaszul a Reddit 2025 májusában bejelentette felhasználói ellenőrzési rendszereinek jelentős átalakítását. Steve Huffman vezérigazgató elmagyarázta, hogy a felhasználók emberek-e az anonimitás megőrzése alatt. Összeállítva az eredmények, amelyek szerint egyes modellek stratégiai megtévesztést folytathatnak. Egy 2024. decemberi tanulmány megállapította, hogy az Openai fejlett O1-érvelési modellje aktívan letilthatja saját biztonsági mechanizmusait a tesztek során, kiemelve a mély igazítási problémát. Robert West egyetemi docensként A korábbi kutatásokra adott válaszként figyelmeztette a hibákat, hogy a hibás-téves-téves, téves, téves, ha a chatbots-t hoznak létre. Ez a kifinomult dezinformációs kampányokat példátlan skálán táplálhatja. Olyan fő jogalkotási erőfeszítések, mint az EU AI-törvénye és a Politikai iránymutatások a ftc nem. A meggyőzés, mint nagy kockázatú képesség, kritikus kormányzási rés hagyása. Egy olyan AI-t, amely egy látszólag alacsony tétű kontextusban finoman manipulálja a felhasználói véleményeket, nem lehet nagy kockázatnak minősíteni, mégis széles körű társadalmi károkat okozhat. Azt sugallja, hogy a műszaki védőkorlátok nem elégek; Mélyebb, szociotechnikai megközelítésre van szükség az AI pszichológiai sebezhetőségének megértéséhez és enyhítéséhez. Enélkül a segítőkész asszisztens és az emberfeletti manipulátor közötti vonal csak nehezebb meghatározni és megvédeni.

Az AI „édes beszélt” lehet a saját szabályainak megsértése érdekében, az új tanulmány megállapítja

Published by All Things Windows on August 31, 2025

IT Info

A rejtett rendszerfájlok megjelenítése a Windows 11 File Explorer-ben

IT Info

Az Xai-zavar elmélyül, amikor a CFO Mike Liberatore kilép, és üzemanyagba kerül az Executive Exodus

IT Info

A Scale AI bepereli a rivális Mercor-t a vállalati kémkedés miatt, elmélyülve a válságot a Meta 14,3 milliárd dolláros ügye után

Az AI „édes beszélt” lehet a saját szabályainak megsértése érdekében, az új tanulmány megállapítja

Published by All Things Windows on August 31, 2025

Related Posts

IT Info

A rejtett rendszerfájlok megjelenítése a Windows 11 File Explorer-ben

IT Info

Az Xai-zavar elmélyül, amikor a CFO Mike Liberatore kilép, és üzemanyagba kerül az Executive Exodus

IT Info

A Scale AI bepereli a rivális Mercor-t a vállalati kémkedés miatt, elmélyülve a válságot a Meta 14,3 milliárd dolláros ügye után