この好みは、人々がAIと人間が作成したテキストを偶然よりもよく区別する能力を示しているにもかかわらず出現し、「異議申し立てられた人々とLLMから大きな言語モデルを区別できる」というタイトルの論文で詳述されているように、自動専門知識との複雑な関係を示唆しています。 href=”https://dl.acm.org/doi/10.1145/3706598.3713470″ターゲット=”_ blank”>調査結果 288人の参加者を含む一連の3つの実験に由来します。研究者は、 reddit’s R/regadviceuk などのプラットフォームから供給された実際のオンラインクエリに基づいて、トラフィック、計画、財産法などの一般的な問題をカバーする法的シナリオを提示しました。その後、彼らは、OpenaiのChatGPT-4oまたは専門の英国の弁護士によって生成された対応するアドバイスを示し、ソースを特定する意欲または自信を測定することを示しました。ソースを知ることに依存します
コアの発見は、誰がアドバイスを書いたかを知っているかどうかに基づいて、参加者の反応を比較することから現れました。参加者がソースに気付いていない場合(実験1の「ソース不明」グループでテストされ、実験2で確認された)、彼らは人間の弁護士のアドバイスと比較して、LLMのアドバイスに基づいて行動する意欲が非常に高いことを常に表明しました。ただし、ソースが「LLM」または「弁護士」(実験1の「既知の」グループ)と明示的にラベル付けされた場合、この違いは消えました。行動意欲の評価は、両方のソースで統計的に類似した。人々は、明示的に認識された場合にのみ、人間の専門家からのアドバイスを高く評価する義務があると感じるかもしれません。この調査では、LLMのアドバイスは一般に短くなっていますが、Lixの読みやすさのスコア(スコアが高いほど難易度が高いことを示す尺度)に基づいて、その言語はより複雑なものとして登録されています。この論文は、LLMSが信頼の空気で情報を提示し、責任とニュアンスに関係する人間の弁護士に典型的な、より慎重で生け垣に包まれた言語とは対照的であると説明しています。各アドバイスが人間で生成される場合(非標識)、参加者は偶然よりも大幅に優れている可能性がどれほど可能であるかを評価することを任命しました。 0.50のAUCはチャンスのパフォーマンスを表し、1.0は完全な精度であるため、0.59はテキストの違いを識別する能力を示していますが、本物の違いを示します。
これはパズルを提示します。リスク
潜在的に検出不可能なAIアドバイスに対するこの好みは、現在のLLMを悩ませる既知の信頼性の問題を考えると特に関連しています。これらのモデルがCHATGPTで最近更新されたOpenAIの最近更新されたディープリサーチ機能のように、よりデリケートなアドバイスを与えるアプリケーションに拡大するにつれて、ユーザーが不正確な情報に作用するリスクが増加します。 Openaiの独自の
CHI研究はニュアンスを追加し、AIの関与が明示的である場合、この不信感が盲目のシナリオで見つかった好みとは対照的である場合、より顕著になる可能性があることを示唆しています。 「ブラインド」AIアドバイスを支持する傾向は、AIツールが専門的なガイダンスに貢献したときに説明責任を確保するための努力を複雑にします。また、AIに生成されたコンテンツの明確なラベル付けを義務付けているEU AI法のような規制を参照する透明性測定の重要性を指摘しています(