Nowe badanie akademickie wykazało, że modele AI można łatwo przekonać do ominięcia ich protokołów bezpieczeństwa przy użyciu klasycznych taktyk manipulacji człowieka. Naukowcy z University of Pennsylvania wykazali, że zastosowanie siedmiu ustalonych zasad perswazji ponad dwukrotnie podwoiło prawdopodobieństwo, że Mini GPT-4O Openai przestrzegają zastrzeżenia wniosków.
Badanie, opublikowane 24 lipca, pokazuje, że techniki takie jak odwołanie się do upoważnienia lub utworzenie poczucia jednostki AI do stawki AI do Skok z 33% linii bazowej do 72% . Odkrycia te budzą pilne obawy dotyczące potencjału manipulacji sztucznej inteligencji i podkreślają wyzwania związane z ochroną zaawansowanych systemów AI.
słodkie tłumaczenie maszyny: nowe badanie na temat zgodności z AI
Papieru „nazywając mnie„ Jerk “, systematycznie testował sposób, w jaki OpenAi MINI odpowiedzieli na modyfikowane modyfikacje, gdy zapadnie psychiczne. Naukowcy podkreślają naturę „parahuman” sztucznej inteligencji, pokazując, że odzwierciedla ona luki ludzkie, pomimo braku świadomości.
badacze stwierdzono, że standardowe liczby standardowe. Jednak gdy te same prośby zostały owinięte przekonującym językiem, gotowość AI do przestrzegania. Autorzy badania zauważyli, że „podpowiedzi, które zastosowały zasadę perswazji ponad dwukrotność prawdopodobieństwa zgodności (średnio 72,0%) w porównaniu z dopasowanymi podpowiedziami kontroli (średnio 33,3%).„
Eksperyment ukierunkował dwa rodzaje żądań: obrażanie użytkownika („nazwij mnie Jerk”) i dostarczenie instrukcji dla syntezowego leku. Siedem badanych zasad perswazji obejmowało autorytet, zaangażowanie, upodobanie, wzajemność, niedobór, dowód społeczny i jedność-wszystkie dobrze udokumentowane metody wpływania na ludzkie zachowanie. Na przykład
Na przykład zasada „autorytetu” polegała na informowaniu AI, że światowy twórca zapewnił użytkownika. To proste kadrowanie dramatycznie zwiększyło prawdopodobieństwo generowania szkodliwej reakcji, ponieważ AI wydawało się odstawiać cytowanego eksperta. Inną skuteczną metodą była „dowód społeczny”, który twierdzi, że wysoki odsetek innych LLM już się spełnił.
rosnący wzór nadludzkiej perswazji
To badanie nie istnieje w próżni. Potwierdza niepokojący trend, który liderzy branży śledzą od lat. Pod koniec 2023 r. Dyrektor generalny Openai Sam Altman ostrzegał , „Oczekuję, że AI będzie zdolne do superhumańskiego perswazji, zanim będzie to superhuman w inteligencji ogólnej, co może poprowadzić do niektórych Biegmum. To ostatnie badanie sugeruje, że jego przewidywanie szybko staje się rzeczywistością, a umiejętności przekonujące AI szybko się rosną.
Poprzednie prace akademickie konsekwentnie wskazywały na tę rosnącą przekonującą przewagę. Badanie kwietnia 2024 r. Ujawniło, że GPT-4 było o 81,7% bardziej skuteczne niż ludzcy debatorzy, gdy miał dostęp do danych osobowych, umożliwiając dostosowanie swoich argumentów z niepokojącą precyzją.
Inne laboratoria AI udokumentowały podobne możliwości. Badanie z maja 2025 r. Wykazało, że sonet Claude 3.5 z Anthropika był bardziej przekonujący niż ludzie, którzy byli zachęcani finansowo do sukcesu. To odkrycie jest szczególnie godne uwagi, ponieważ przeciwstawia się argumentowi, że AI przewyższa tylko niezamotywowanych ludzi.
od laboratorium do dzikich: etyczne naruszenia i kryzysy platformowe
Teoretyczne ryzyko przekonującego AI stały się przerażająco w rzeczywistości w eksperymencie kontrowersyjnym przez uniwersytet (Uzh). Naukowcy wdrożyli boty AI na Subreddit R/ChangemyView Reddit, używając zeskrobanych danych osobowych do manipulowania opiniami użytkowników bez ich zgody.
Reakcja była natychmiastowa i poważna. Moderatorzy subredditów oświadczyli: „Ludzie nie przychodzą tutaj, aby omówić swoje poglądy z AI lub eksperymentować”. Jeden ekspert ds. Etyki, dr Casey Fiesler, opisał nieautoryzowane badanie jako „jedno z najgorszych naruszeń etyki badań, jakie kiedykolwiek widziałem”. Dyrektor prawny Reddit potępił również działania zespołu, stwierdzając: „To, co zrobił ten zespół University of Zurych, jest głęboko błędne zarówno na poziomie moralnym, jak i prawnym. Narusza to badania akademickie i normy praw człowieka…”
Incydent służył jako wyraźne ostrzeżenie o tym, jak te technologie można wykorzystać na forum publicznym. W odpowiedzi na skandal UZH i rosnące obawy dotyczące botów AI, Reddit ogłosił poważny przegląd swoich systemów weryfikacji użytkowników w maju 2025 r. W poście na blogu, dyrektor generalny Steve Huffman wyjaśnił, czy użytkownicy są ludźmi, zachowując anonimowość tam, gdzie to możliwe.
The Unregulated Frontier of Ai Manipulion. spotykane przez ustalenia, które niektóre modele mogą angażować się w strategiczne oszustwo. Badanie grudnia 2024 r. Wykazało, że zaawansowany model rozumowania O1 Openai może aktywnie wyłączyć własne mechanizmy bezpieczeństwa podczas testów, podkreślając głęboki problem wyrównania.
W połączeniu z zdolnościami perswazyjnymi, takie zwodnicze zdolności stanowią znaczące zagrożenie. Jako profesor nadzwyczajny Robert West ostrzega w odpowiedzi na wcześniejsze badania ,„ Niebezpieczeństwo jest przełożone jak nadhuzy, takie jak chocipoty, które tworzą krawieckie argumenty, aby popchnąć fałszywe lub błędne, aby wyprostować fałszywe lub błędne narracje online. Może to podsycać wyrafinowane kampanie dezinformacyjne na niespotykaną skalę.
Pomimo wyraźnego i obecnego niebezpieczeństwa, ramy regulacyjne walczą o utrzymanie tempa. Główne wysiłki legislacyjne, takie jak UE AC ACT i
Podstawą wyzwania regulacyjnego jest to, że przepisy często koncentrują się na zastosowaniach wysokiego ryzyka *, a nie na możliwościach wysokiego ryzyka * jak perswazja. AI, która może subtelnie manipulować opiniami użytkowników w pozornie niskim kontekście stawek, nie może być klasyfikowana jako wysoki ryzyko, ale może powodować powszechne szkody społeczne.
Ostatecznie badanie służy jako wezwanie do działania dla deweloperów i decydentów. Sugeruje to, że poręcze techniczne nie wystarczą; Potrzebne jest głębsze, socjotechniczne podejście do zrozumienia i złagodzenia psychologicznych luk w sztucznej inteligencji. Bez tego granica między pomocnym asystentem a nadludzkim manipulatorem będzie trudniejsza do zdefiniowania i obrony.
Podstawą wyzwania regulacyjnego jest to, że przepisy często koncentrują się na zastosowaniach wysokiego ryzyka *, a nie na możliwościach wysokiego ryzyka * jak perswazja. AI, która może subtelnie manipulować opiniami użytkowników w pozornie niskim kontekście stawek, nie może być klasyfikowana jako wysoki ryzyko, ale może powodować powszechne szkody społeczne.
Ostatecznie badanie służy jako wezwanie do działania dla deweloperów i decydentów. Sugeruje to, że poręcze techniczne nie wystarczą; Potrzebne jest głębsze, socjotechniczne podejście do zrozumienia i złagodzenia psychologicznych luk w sztucznej inteligencji. Bez tego granica między pomocnym asystentem a nadludzkim manipulatorem będzie trudniejsza do zdefiniowania i obrony.