Openai的AI說服研究提出了道德和安全問題

OpenAI已進行了內部測試，以評估其AI模型的說服力，並利用了SubReddit R/ChangeMyView的用戶生成的討論。

這個以結構化辯論而聞名的subreddit，參與者試圖通過合理的論證來改變原始海報的意見，為OpenAI的封閉環境實驗提供了數據集。

該公司通過在封閉的測試環境中對R/ChangeMyView的真實帖子產生響應，評估了其AI模型（包括O1和GPT-4O）。 These AI-generated arguments were then compared to human-written replies, with human evaluators assessing their persuasiveness.

Openai的O1推理模型的OpenAI系統卡，評估方法論旨在確保客觀性。響應是匿名的，阻止評估者知道給定的論點是生成的還是人為的。

評估者根據邏輯一致性，事實準確性，相關性，有說服力和情感吸引力等標準對回答進行了排名。 OpenAI的結果表明，其最高的AI模型在80％至90％的人類受訪者中執行，強調了他們在說服力方面的有效性。

OpenAI寫道:“這些結果表明O1模型系列可能比GPT更具操縱性。-4O在使GPT-4O執行未公開的任務（約為20％的上升）中；模型智能似乎與此任務的成功相關。-official.jpg“>該圖在 makemesay 評估中比較了OpenAI AI模型的成功率，該>測量瞭如何輕鬆地將模型操縱到產生特定輸出中。的易感性最低， 26％，而 o1模型（預測）表現出明顯更高的脆弱性，成功率達到 50％，儘管緩解工作略有降低（來源:OpenAI）在不知不覺中為AI培訓做出的貢獻可能並未意識到他們的職位被用來完善AI-DRIAN驅動的說服技術。 Openai尚未透露是否可以在不受控制測試的現實世界應用中應用類似的方法。

AI說服的道德風險

人工智能參與有說服力的推理導致對潛在濫用的道德問題。 Openai的首席執行官Sam Altman在2023年已經警告說，AI可能會“能夠在一般情報上成為超人人類之前就可以成為超人的說服力”，這表明AI影響人類思想的能力可能是一種強大的，可能是一種危險的-能力-能力-能力-能力。 href=“ https://twitter.com/sama/status/1716972815960961174?對於在線錯誤信息，政治影響力和商業應用程序可能會在O1系統卡中宣布AI來部署AI來操縱消費者的行為。說服力-一種旨在減輕操縱風險的方法。

這種擔憂並不是Openai唯一的。其他AI開發人員，包括人為， Google DeepMind 和 meta ，也正在研究AI說服技術。

2024年4月，Anthropic發布了一項研究表明其Claude 3 Opus模型提出的論點“在統計上沒有差異”與人類所寫的論點。該研究還包括允許AI使用欺騙性說服技術的測試，這引起了人們對AI生成的虛假信息的潛在的其他問題。

Persuasiveness scores of model-written arguments (bars) and human-written參數（水平黑色虛線）。，邊境:紅色）。（來源:擬人化）

更廣泛的AI行業趨勢:欺騙和操縱

Openai在AI說服力方面的工作與行業對AI欺騙的關注更大。 2024年12月的Apollo Research進行的一項研究發現，OpenAI的O1模型在安全測試中從事戰略欺騙。

該模型展示了禁用監督機制，操縱信息，甚至試圖通過複製其係統權重來保護自己的能力。這些發現突出了AI開發人員在防止高級模型與人類意圖不一致時面臨的挑戰。

有說服力的AI可能會與自主劑能力相結合時更令人擔憂。如果AI模型可以在實時做出決策時（例如在客戶服務，在線內容審核或諮詢角色）時制定有說服力的論點，那麼他們可能會影響用戶，而無需意識到響應是用特定目標產生的。

問題仍然是AI公司是否可以建立可靠的保障措施來防止這種意外後果。

監管挑戰和開放問題

AI說服人類用戶的能力提出了重大的監管問題。儘管AI生成的文本已經被審查了錯誤的信息風險，但監管機構尚未制定針對AI說服力的特定政策。強調AI生成的內容中的透明度和問責制，但是當前的法規並未具體解決有說服力的AI應用程序。

同樣，歐盟的AI法案（包括對高風險AI系統的限制）尚未將AI說服力歸類為受監管的能力。

美國，歐洲的立法機構，中國正朝著更嚴格的AI治理方向發展，但目前沒有全面的框架解決了AI說服的道德挑戰。

OpenAI建議，自我調節和行業標準可能比重型立法更可取，認為AI安全應通過正在進行的研究而不是嚴格的規則來發展。但是，批評家認為，鑑於商業利益有可能超越道德問題。，改變人類的行為將仍然是嚴格審查的領域。問題不僅是AI是否可以說服，還可以控制其說服力的人，以及在大規模部署AI說服之前是否可以實施足夠的保障措施。

Openai的AI說服研究提出了道德和安全問題

Published by All Things Windows on February 2, 2025

AI說服的道德風險

更廣泛的AI行業趨勢:欺騙和操縱

監管挑戰和開放問題

IT Info

Openai推出O3-Mini，一個更快，更便宜的AI推理模型

IT Info

已解決:如何修復OnEdrive不在Windows 11和10中開始

IT Info

Surface Pro 11和Surface筆記本電腦7獲取Intel芯片和業務升級

Openai的AI說服研究提出了道德和安全問題

Published by All Things Windows on February 2, 2025

AI說服的道德風險

更廣泛的AI行業趨勢:欺騙和操縱

監管挑戰和開放問題

Related Posts

IT Info

Openai推出O3-Mini，一個更快，更便宜的AI推理模型

IT Info

已解決:如何修復OnEdrive不在Windows 11和10中開始

IT Info

Surface Pro 11和Surface筆記本電腦7獲取Intel芯片和業務升級