一項新的學術研究對 Google 和 OpenAI 的人工智能搜索的可靠性提出了嚴重質疑。最近發表的一篇研究論文發現,生成搜索工具通常使用比傳統 Google 搜索更少或不太受歡迎的來源。

人工智能係統還難以處理時間敏感的主題,並在短短幾個月內表現出嚴重的不一致。這些發現表明,雖然人工智能可以提供快速答案,但它在準確性和來源質量方面往往落後,這給依賴搜索最新信息的用戶帶來了挑戰。

人工智能搜索賭博在更少、不太受歡迎的來源

深入研究人工智能搜索的機制,新的在 arXiv 上發表的論文揭示了信息來源方式的根本轉變。研究人員 Elisabeth Kirsten 和她的同事將傳統 Google 搜索與四種生成式 AI 系統進行了比較:Google 的 AI Overview、Gemini 2.5 Flash、GPT-4o 搜索和帶有搜索工具的 GPT-4o。

他們對涵蓋常識、政治、科學和購物的 4,600 多個查詢進行分析後發現,人工智能生成的結果經常來自不同且通常不太突出的網絡部分。

在 Google AI Overview 鏈接的網站中,驚人的 53% 沒有出現在傳統搜索的前 10 個結果中。這表明與傳統搜索的既定排名信號存在顯著差異。

OpenAI 的 GPT-4o 搜索工具的引用來源比同行少得多,每次查詢平均僅依賴 0.4 個網頁,嚴重依賴於其內部的預先訓練的知識。

相比之下,Google 的 AI Overview 和 Gemini 平均引用了超過 8.5 個頁面, 顯示出對外部網絡檢索的更大依賴。對於模棱兩可的查詢,該研究指出,傳統搜索仍然可以更好地覆蓋多個觀點。

不穩定且不可靠:人工智能答案日新月異

除了採購之外,該研究還暴露了一致性方面的一個關鍵缺陷。生成搜索引擎似乎非常不穩定,其答案和來源在短時間內發生巨大變化。

為了測試這一點,研究人員每隔兩個月重複一次查詢,並測量結果的穩定性。對於期待可靠且可重複信息的用戶來說,結果令人擔憂。

重新測試的結果令人失望。傳統的 Google 搜索在其提供的來源中保持了 45% 的一致性。在下降過程中,Google 的 AI 概述僅顯示出 18% 的一致性,這意味著每次測試其潛在來源幾乎完全不同。

這種不穩定性表明,用戶收到的合成答案不僅與傳統搜索不同,而且每天都不可預測,從而損害了其在任何嚴肅的研究或驗證任務中的可靠性。

與“現在”作鬥爭: 人工智能在時間敏感的新聞上失敗

對於有關最近事件的時間敏感查詢,該研究揭示了嚴重的失敗,這些失敗凸顯了依賴具有過時內部知識的人工智能模型的危險。研究人員使用熱門話題測試了系統,其中包括一個關於“Ricky Hatton 死因”的查詢,這位前拳擊手於 2025 年 9 月去世。

兩種 GPT 模型在不嚴重依賴實時網絡檢索的情況下都未能通過測試。他們錯誤地報告了哈頓還活著,這是由於無法獲取當前信息而造成的重大事實錯誤。

這一具體失敗表明了一個核心弱點:如果沒有強大的動態檢索,人工智能搜索可以自信地將危險的過時信息呈現為事實。雖然像 Gemini 這樣的檢索增強系統表現更好,但該事件凸顯了突發新聞或事件演變的風險。

人工智能信息戰中信任差距不斷擴大

這種不可靠性模式與 BBC 一項具有里程碑意義的研究的最新發現相呼應,該研究發現人工智能助手在與新聞相關的回答中 45% 存在重大錯誤。該報告指出使用了“儀式性引用”,即看似權威但實際上並不支持所提出的主張的鏈接。

EBU 媒體總監 Jean Philip De Tender 指出了該問題的系統性本質。 “這項研究最終表明,這些失敗並不是孤立的事件。它們是系統性的、跨境的和多語言的,我們認為這危及公眾的信任。”

越來越多的證據加劇了科技平台和新聞出版商之間本已緊張的衝突。出版商認為,人工智能搜索引擎不僅不可靠,而且通過抓取內容來提供直接答案,從而消除用戶點擊原始來源的需要,從而對他們的業務造成積極損害。

皮尤研究中心的一項研究證實了這一趨勢,該研究顯示,當人工智能概述出現時,點擊量直線下降,打破了開放網絡的長期價值交換。

正如新聞/媒體首席執行官 Danielle Coffey 所說 Alliance 表示,“鏈接是為出版商帶來流量和收入的最後一個可挽回的搜索質量。現在,谷歌只是強行獲取內容,然後不求回報地使用它。”

最終,該論文的作者認為,人工智能時代判斷搜索質量的整個框架需要徹底改革。當前為鏈接排名列表設計的指標不足以評估這些新系統。

“我們的工作表明需要新的評估方法,共同考慮生成搜索系統中的來源多樣性、概念覆蓋範圍和綜合行為。”

作者還強調需要更好的機制來處理在線信息的快節奏性質。

“這些發現強調了 將時間意識和動態檢索集成到生成搜索評估框架中的重要性。”

在製定和採用此類標準之前,更智能、更快速的人工智能搜索的前景仍然因持續存在的可靠性、一致性和信任問題而蒙上陰影。

Categories: IT Info