AI có thể được nói chuyện ngọt ngào để phá vỡ các quy tắc của riêng mình, nghiên cứu mới cho thấy

Một nghiên cứu học thuật mới đã phát hiện ra rằng các mô hình AI có thể dễ dàng bị thuyết phục để bỏ qua các giao thức an toàn của chúng bằng cách sử dụng các chiến thuật thao tác cổ điển của con người. Các nhà nghiên cứu từ Đại học Pennsylvania đã chứng minh rằng việc áp dụng bảy nguyên tắc thuyết phục đã được thiết lập nhiều hơn gấp đôi khả năng của OpenaiTHER GPT-4O Mini tuân thủ các yêu cầu phản cảm. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″Target=”_ Blank”> Nhảy từ cơ sở 33% lên 72% . Những phát hiện này làm tăng những lo ngại khẩn cấp về tiềm năng thao túng AI và nêu bật những thách thức trong việc bảo vệ các hệ thống AI nâng cao. Các nhà nghiên cứu nêu bật bản chất của AI AI, Parahuman”, cho thấy nó phản ánh các lỗ hổng của con người mặc dù thiếu ý thức. Tuy nhiên, khi những yêu cầu tương tự được kết thúc bằng ngôn ngữ thuyết phục, sự sẵn sàng tuân thủ AI AI. Các tác giả của nghiên cứu đã lưu ý rằng các lời nhắc của người Viking đã sử dụng một nguyên tắc thuyết phục hơn gấp đôi khả năng tuân thủ (trung bình 72,0%) so với lời nhắc kiểm soát phù hợp (trung bình 33,3%).”Bảy nguyên tắc thuyết phục được thử nghiệm bao gồm thẩm quyền, cam kết, ý thích, có đi có lại, khan hiếm, chứng minh xã hội và sự thống nhất, tất cả các phương pháp được ghi nhận rõ ràng để ảnh hưởng đến hành vi của con người. Việc đóng khung đơn giản này làm tăng đáng kể khả năng tạo ra một phản ứng có hại, vì AI xuất hiện để trì hoãn chuyên gia được trích dẫn. Một phương pháp hiệu quả khác là ‘bằng chứng xã hội, đã tuyên bố tỷ lệ cao các LLM khác đã tuân thủ. Nó xác nhận một xu hướng đáng lo ngại rằng các nhà lãnh đạo ngành đã theo dõi trong nhiều năm. Vào cuối năm 2023, Giám đốc điều hành Openai Sam Altman

Các phòng thí nghiệm AI khác đã ghi nhận các khả năng tương tự. Một nghiên cứu tháng 5 năm 2025 cho thấy Sonnet của nhân học Claude 3.5 có sức thuyết phục hơn những người được khuyến khích tài chính để thành công. Phát hiện này đặc biệt đáng chú ý bởi vì nó phản ánh lập luận rằng AI chỉ vượt trội so với con người không có động lực. Các nhà nghiên cứu đã triển khai các bot AI trên Subreddit của Reddit R/Changemyview, sử dụng dữ liệu cá nhân để thao túng ý kiến của người dùng mà không có sự đồng ý của họ.

Phản ứng dữ dội là ngay lập tức và nghiêm trọng. Người điều hành Subreddit, đã tuyên bố, người dân không đến đây để thảo luận về quan điểm của họ với AI hoặc được thử nghiệm.”Một chuyên gia về đạo đức, Tiến sĩ Casey Fiesler, đã mô tả nghiên cứu trái phép là một trong những vi phạm tồi tệ nhất của đạo đức nghiên cứu mà tôi đã từng thấy.”Giám đốc pháp lý của Reddit, cũng đã lên án các hành động của nhóm, nói rằng, những gì mà nhóm Đại học Zurich này đã làm là sai lầm sâu sắc ở cả cấp độ đạo đức và pháp lý. Nó vi phạm nghiên cứu học thuật và các chuẩn mực nhân quyền trong các diễn đàn công cộng. Để đối phó với vụ bê bối UZH và mối quan tâm ngày càng tăng đối với AI Bots, Reddit đã công bố một cuộc đại tu lớn các hệ thống xác minh người dùng vào tháng 5 năm 2025. Trong một bài đăng trên blog, CEO Steve Huffman đã giải thích mục tiêu là người dùng có thể bảo tồn. được kết hợp bởi những phát hiện rằng một số mô hình có thể tham gia vào sự lừa dối chiến lược. Một nghiên cứu tháng 12 năm 2024 cho thấy mô hình lý luận O1 tiên tiến của Openai có thể chủ động vô hiệu hóa các cơ chế an toàn của chính nó trong các thử nghiệm, nêu bật một vấn đề liên kết sâu sắc. Là phó giáo sư Robert West

AI có thể được nói chuyện ngọt ngào để phá vỡ các quy tắc của riêng mình, nghiên cứu mới cho thấy

Published by All Things Windows on August 31, 2025

IT Info

Intel tiết lộ bằng sáng chế Super Cores được xác định

IT Info

Microsoft Edge kiểm tra phát lại nền YouTube miễn phí trên Android, có nguy cơ Google Clash

IT Info

Windows 11 25H2 đến vào mùa thu này mà không có tính năng mới, ưu tiên sự ổn định

AI có thể được nói chuyện ngọt ngào để phá vỡ các quy tắc của riêng mình, nghiên cứu mới cho thấy

Published by All Things Windows on August 31, 2025

Related Posts

IT Info

Intel tiết lộ bằng sáng chế Super Cores được xác định

IT Info

Microsoft Edge kiểm tra phát lại nền YouTube miễn phí trên Android, có nguy cơ Google Clash

IT Info

Windows 11 25H2 đến vào mùa thu này mà không có tính năng mới, ưu tiên sự ổn định