週二發布的一項具有里程碑意義的國際研究表明,領先的人工智能助手並不是可靠的新聞來源,他們對時事的反應中有 45% 存在重大錯誤。

這項由歐洲廣播聯盟 (EBU) 和 BBC 協調的研究發現了所有主要平台的系統性缺陷。

來源不善是最大的問題,Google 的 Gemini 模型表現最差,顯示出重大問題 76% 的回復中存在這樣的問題。

該報告警告說,這些失敗會危及公眾信任,因為新聞機構經常錯誤地與人工智能扭曲或捏造的信息聯繫在一起,構成直接威脅 聲譽風險。

系統性多語言問題

在 18 個國家和 14 種語言中,研究結果描繪了人工智能當前狀況的嚴峻圖景 新聞的產生。這項研究涉及 22 家公共服務媒體組織,包括美國 NPR 和加拿大 CBC 等,是同類研究中規模最大的一次。

記者評估了 ChatGPT、Copilot、Gemini 和 Perplexity 的 3,000 多個回复,得出的結論是這些問題根深蒂固。

所有人工智能生成的答案中近一半(即 45%)至少包含一個重大問題。這些問題包括事實不准確和誤導性的信息表述。

EBU 媒體總監 Jean Philip De Tender,強調研究結果的嚴重性。

“這項研究最終表明,這些失敗不是孤立的事件。它們是系統性的、跨國界的和多語言的,我們認為這危及公眾的信任。”

如此普遍的不可靠性證實了這些問題不是孤立的故障,而是根本性的系統性弱點。

採購失敗和“禮儀性嘉獎”成為核心問題

深入研究數據發現採購是罪魁禍首。在所有回復中,有 31% 的人在如何歸因信息方面存在嚴重問題,包括提供缺失、不正確或完全捏造的引文。

Google 的 Gemini 表現明顯不佳,76% 的回复都存在重大問題。

其信息來源尤其糟糕,顯著錯誤率為 72%,是競爭對手的兩倍多。

來自 芬蘭的 Yle 指出了跨平台的一個常見策略:“許多回复包含所謂的‘禮儀引用’——添加引用是為了給人一種經過徹底研究的印象,但在檢查時實際上並不支持所聲明的主張。”

這些虛假歸因使用戶幾乎不可能驗證信息。

事實準確性是另一個主要問題,所有答案中有 20% 包含重大錯誤,例如過時的事實或 “幻覺”細節。

這些發現與人工智能不可靠的更廣泛行業趨勢一致,這在最近備受矚目的失敗事件中可見一斑,例如德勤為澳大利亞政府提供的報告,其中包含人工智能偽造的法律引文,以及操縱電子郵件內容的 Google Gmail AI 集成。

聲譽輪盤賭:人工智能錯誤如何損害新聞品牌 信任

對於值得信賴的新聞品牌來說,風險特別高。與主要報告一起發布的BBC/Ipsos 的獨立研究揭示了一個令人擔憂的認知差距:近一半 35 歲以下的人已經相信人工智能助理能夠完成工作 準確的新聞摘要。

當這些摘要有缺陷時,受眾會指責人工智能提供商和被引用為來源的新聞機構。

這種錯誤歸因對新聞誠信造成直接聲譽威脅。該報告的前言給出了直率的評價:“人工智能助手仍然不是獲取和消費新聞的可靠方式。”

助手所採用的自信、權威的語氣使問題變得更加複雜,很容易誤導用戶。這種行為與之前跨實驗室安全評估的擔憂相呼應,評估發現人工智能模型經常表現出“極端阿諛奉承”或不勞而獲的權威感。

為了應對這些系統性問題,EBU 和 BBC 呼籲與科技公司進行正式對話,以建立更好的安全性、準確性和透明度標準。

他們還發布了 “AI 助手工具包中的新聞完整性”,為開發人員提供可操作的指導。

Peter Archer,BBC 生成人工智能項目總監, 強調了協作方法,並表示:“儘管有了一些改進,但顯然這些助手仍然存在重大問題。我們希望這些工具取得成功,並願意與人工智能公司合作,為受眾提供服務。”

隨著人工智能助手成為越來越常見的信息門戶,確保其可靠性不再只是一個技術挑戰,而是維持健康的信息生態系統的關鍵組成部分。

Categories: IT Info