新しい学術研究により、Google と OpenAI による AI を活用した検索の信頼性に重大な疑問が投げかけられています。最近発表された研究論文によると、生成検索ツールは、従来の Google 検索よりも人気の低いソースを使用することが多いことがわかりました。
AI システムは、時間に敏感なトピックにも苦戦しており、わずか数か月の間に大きな矛盾が見られます。これらの調査結果は、AI は迅速な回答を提供できるものの、正確性やソースの品質において遅れが多く、最新情報の検索に依存しているユーザーにとって課題となっているということを示唆しています。
AI 検索は少数のあまり人気のないソースに賭ける
AI 検索の仕組みを詳しく掘り下げ、新しい arXiv で公開された論文は、情報の入手方法の根本的な変化を明らかにしています。研究者のエリザベス・キルステンとその同僚は、従来の Google 検索を、Google の AI 概要、Gemini 2.5 Flash、GPT-4o 検索、検索ツールを備えた GPT-4o という 4 つの生成 AI システムと比較しました。
一般知識、政治、科学、ショッピングに及ぶ 4,600 件を超えるクエリを分析した結果、AI によって生成された結果は、Web の別の、あまり目立たない部分から取得されることが多いことが判明しました。
Google の AI 概要によってリンクされている Web サイトの驚くべき 53% は、従来の検索結果の上位 10 位に表示されませんでした。これは、従来の検索で確立されたランキング シグナルからの大きな乖離を示しています。
検索ツールを備えた OpenAI の GPT-4o は、引用元が同等のものよりもはるかに少なく、クエリあたり平均 0.4 の Web ページに依存しており、内部の事前トレーニングされた知識に大きく依存していました。
対照的に、Google の AI 概要と Gemini は両方とも平均 8.5 ページ以上を引用しており、より多くのページを引用しています。 外部 Web 検索に依存します。あいまいなクエリについては、従来の検索の方が依然として複数の視点をより適切にカバーできることが調査で指摘されています。
不安定で信頼性が低い: AI の答えは日々変化する
この調査では、調達以外にも、一貫性における重大な欠陥が明らかになりました。生成検索エンジンは、短期間で答えやソースが劇的に変化するため、非常に不安定であるようです。
これをテストするために、研究者らは 2 か月おきにクエリを繰り返し、結果の安定性を測定しました。信頼性と再現性のある情報を期待していたユーザーにとって、この結果は懸念すべきものでした。
再テストの結果は残念なものでした。従来の Google 検索では、表示されるソースの一貫性が 45% 維持されていました。低下傾向では、Google の AI 概要の一貫性は 18% しか示されませんでした。これは、基礎となるソースがテストごとにほぼ完全に異なることを意味します。
この不安定性は、ユーザーが受け取る合成された回答が従来の検索と異なるだけでなく、日ごとに予測不可能であることを示唆しており、深刻な調査や検証タスクに対する信頼性が損なわれます。
「今」との闘い: AI は時間に敏感なニュースで失敗する
最近の出来事に関する時間に敏感なクエリに関して、この調査では、古い内部知識を持つ AI モデルに依存する危険性を浮き彫りにする重大な失敗が明らかになりました。研究者らは、2025 年 9 月に亡くなった元ボクサーの「リッキー・ハットンの死因」に関する 1 つのクエリなど、トレンドのトピックを使用してシステムをテストしました。
両方の GPT モデルは、リアルタイムの Web 検索に大きく依存していない場合、テストに失敗しました。彼らは、ハットンがまだ生きていると誤って報告しました。これは、最新の情報にアクセスできないことに起因する重大な事実誤認です。
この特定の失敗は、根本的な弱点を示しています。堅牢で動的な検索がなければ、AI 検索は、危険なほど古い情報を自信を持って事実として提示してしまう可能性があります。 Gemini のような検索強化システムのパフォーマンスは良好でしたが、今回の事件は、ニュース速報や進化する出来事に対するリスクを浮き彫りにしました。
AI 情報戦争における信頼ギャップの拡大
このような信頼性の低さのパターンは、AI アシスタントからのニュース関連の回答の 45% に重大な誤りが見つかった画期的な BBC 調査の最近の調査結果を反映しています。この報告書は、「儀式的引用」、つまり権威あるように見えるリンクですが、実際には主張を裏付けていないリンクの使用を指摘しました。
EBU のメディアディレクター、ジャン・フィリップ・ドゥ・テンダー氏は、問題の体系的な性質を指摘しました。 「今回の調査は、これらの失敗が単独の事件ではないことを決定的に示しています。それらは組織的で、国境を越え、多言語に対応しており、これが国民の信頼を危険にさらしていると私たちは考えています。」
増え続ける一連の証拠が、テクノロジープラットフォームとニュース出版社の間のすでに緊迫した対立に拍車をかけている。パブリッシャーらは、AI 検索エンジンは信頼性が低いだけでなく、コンテンツをスクレイピングして直接回答を提供し、ユーザーがクリックして元のソースにアクセスする必要をなくすことでビジネスに積極的に損害を与えていると主張しています。
この傾向は、AI 概要が表示されるとクリック数が激減するというピュー研究所の調査でも確認されており、長年続いてきたオープン ウェブの価値交換を打ち破るものです。
News/Media Alliance は、「リンクは、パブリッシャーにトラフィックと収益をもたらす検索の最後の償還品質でした。現在、Google はコンテンツを力ずくで奪い、何の見返りも与えずに使用しているだけです。」
最終的に、この論文の著者らは、AI 時代に向けて、検索の品質を判断するフレームワーク全体の見直しが必要であると主張しています。ランク付けされたリンク リスト用に設計された現在の指標は、これらの新しいシステムを評価するには不十分です。
「私たちの研究は、生成検索システムにおけるソースの多様性、概念範囲、および合成動作を共同で考慮する新しい評価方法の必要性を示しています。」
著者らはまた、オンライン情報のペースの速い性質を処理するためのより良いメカニズムの必要性を強調しています。
「これらの発見は、 時間認識と動的な検索を生成検索評価フレームワークに統合します。」
そのような標準が開発され、採用されるまで、よりスマートで高速な AI 検索の約束は、信頼性、一貫性、信頼性に関する永続的な問題によって曇ったままになります。