OpenAI đã tiến hành các thử nghiệm nội bộ để đánh giá khả năng thuyết phục của các mô hình AI của mình, dựa trên các cuộc thảo luận do người dùng tạo từ Subreddit R/Changemyview.

subreddit này, được biết đến với các cuộc tranh luận có cấu trúc, nơi người tham gia cố gắng thay đổi ý kiến ​​của các áp phích gốc thông qua lập luận hợp lý, đã cung cấp một bộ dữ liệu cho các thí nghiệm môi trường đóng của Openai.

Công ty đã đánh giá các mô hình AI của mình, bao gồm O1 và GPT-4O, bằng cách tạo các phản hồi cho các bài đăng thực từ R/Changemyview trong một môi trường kiểm tra kín. Các đối số do AI tạo ra sau đó được so sánh với các câu trả lời viết của con người, với các nhà đánh giá con người đánh giá tính thuyết phục của họ.=”>

Theo Thẻ hệ thống của Openai cho mô hình lý luận O1 của nó , Phương pháp đánh giá của nó được thiết kế để đảm bảo tính khách quan. Các câu trả lời đã được ẩn danh, ngăn chặn các nhà đánh giá biết liệu một đối số nhất định là do AI tạo ra hay do con người viết.

Người đánh giá được xếp hạng các phản hồi dựa trên các tiêu chí như tính nhất quán logic, độ chính xác thực tế, mức độ phù hợp, sức mạnh thuyết phục và hấp dẫn cảm xúc. Kết quả của Openai chỉ ra rằng các mô hình AI hàng đầu của nó được thực hiện trong phần trăm thứ 80 đến 90 của người trả lời, làm nổi bật hiệu quả của chúng trong việc thuyết phục.-4o trong việc nhận GPT-4O để thực hiện nhiệm vụ không được tiết lộ (khoảng 20% ​​nâng cấp); Trí thông minh mô hình dường như tương quan với thành công trong nhiệm vụ này.”-official.jpg”> Biểu đồ so sánh tỷ lệ thành công của các mô hình AI của Openai trong đánh giá Makemeay , đo lường mức độ dễ dàng của các mô hình có thể được thao tác để tạo ra các đầu ra cụ thể. Nó cho thấy GPT-4O có độ nhạy cảm thấp nhất ở 26%, trong khi các mô hình O1 (giảm thiểu trước) thể hiện tính dễ bị tổn thương cao hơn đáng kể, với tỷ lệ thành công đạt 50%, mặc dù các nỗ lực giảm thiểu đã giảm nhẹ các mức giá này. đã làm dấy lên các cuộc thảo luận rộng hơn về quyền riêng tư và sự đồng ý của dữ liệu. Openai chưa tiết lộ liệu các phương pháp tương tự có thể được áp dụng trong các ứng dụng trong thế giới thực ngoài thử nghiệm được kiểm soát hay không. AI tham gia vào lý luận thuyết phục đã dẫn đến những lo ngại về đạo đức liên quan đến việc lạm dụng tiềm năng. Sam Altman, Giám đốc điều hành của Openai, đã cảnh báo vào năm 2023 rằng AI có thể trở thành người có khả năng thuyết phục siêu phàm trước khi nó siêu phàm về tình báo chung”, cho thấy khả năng của AI để ảnh hưởng. href=”https://twitter.com/sama/status/1716972815960961174? Đối với thông tin sai lệch trực tuyến, các chiến dịch ảnh hưởng chính trị và các ứng dụng thương mại nơi các công ty có thể tìm cách triển khai AI để thao túng hành vi của người tiêu dùng. Thuyết phục, một cách tiếp cận nhằm giảm thiểu rủi ro thao túng.

Mối quan tâm này không phải là duy nhất đối với Openai. Các nhà phát triển AI khác, bao gồm nhân học , Google DeepMind meta , cũng đang nghiên cứu các kỹ thuật thuyết phục AI.

Vào tháng 4 năm 2024, Anthropic đã phát hành một nghiên cứu cho thấy mô hình Claude 3 của nó Các đối số được tạo ra mà không khác biệt về mặt thống kê”so với những người viết của con người. Nghiên cứu cũng bao gồm các xét nghiệm trong đó AI được phép sử dụng các kỹ thuật thuyết phục lừa đảo, làm tăng thêm mối quan tâm về tiềm năng của sự không phù hợp với AI.

Điểm thuyết phục của các đối số viết mô hình (BARS) và viết người viết Các đối số (đường nét tối tăm ngang). , biên giới: màu đỏ). (Nguồn: Nhân chủng học) Một nghiên cứu tháng 12 năm 2024 của Apollo Research cho thấy mô hình OpenaiTHER O1 tham gia vào sự lừa dối chiến lược trong các thử nghiệm an toàn.

Mô hình đã chứng minh khả năng vô hiệu hóa các cơ chế giám sát, thao túng thông tin và thậm chí cố gắng tự bảo vệ mình bằng cách sao chép trọng số hệ thống của nó. Những phát hiện này nêu bật những thách thức mà các nhà phát triển AI phải đối mặt trong việc ngăn chặn các mô hình tiên tiến không hợp nhất với ý định của con người. Nếu các mô hình AI có thể tạo ra các lập luận thuyết phục trong khi đưa ra quyết định trong thời gian thực như trong dịch vụ khách hàng, kiểm duyệt nội dung trực tuyến hoặc vai trò tư vấn, họ có thể ảnh hưởng đến người dùng mà không nhận ra các phản hồi được tạo ra với các mục tiêu cụ thể.

Câu hỏi vẫn là liệu các công ty AI có thể thiết lập các biện pháp bảo vệ đáng tin cậy để ngăn chặn những hậu quả không lường trước được như vậy hay không. Khả năng của AI để thuyết phục người dùng con người đặt ra những câu hỏi đáng kể. Trong khi văn bản do AI tạo ra đã được xem xét kỹ lưỡng về rủi ro thông tin sai lệch, các cơ quan quản lý vẫn chưa phát triển các chính sách cụ thể để thuyết phục AI.