世界的なコンサルティング大手のデロイトは、オーストラリア政府への 44 万ドルの報告書で生成 AI を使用したことを認め、厳しい監視にさらされています。
AI を活用した分析で捏造された引用と重大な事実誤認が生じ、コンサルティングの完全性と AI の悪用に関する議論を引き起こしたため、同社は 97,000 ドルを返済する予定です。
この報告書は国の福祉を批判的に見直すものでした。 2024 年 12 月に雇用労働関係省 (DEWR) によって委託されたコンプライアンス システム。この話題は、国の悪名高い「ロボ債務」スキャンダルを受けて非常にデリケートなものであり、正確さが最重要視されていた。
この大失敗は現在、 人間の厳密な監視なしで生成 AI を導入するリスク。この報告書は、大規模な言語モデルを専門的な仕事に統合する際の成長の痛みを浮き彫りにし、公共政策を形成するために AI ツールが使用される場合の説明責任についての緊急の疑問を提起しています。
脚注の「幻覚」
この報告書の欠陥は 8 月にシドニー大学の学者であるクリストファー・ラッジ博士によって初めて暴露され、彼の法医学的な 1 行ごとの調査により、彼が指摘した内容が明らかになりました。 重大な誠実さと信頼の侵害と呼ばれています。
この分野の専門家として 規制の影響で、ラッジ博士は異常を発見する独自の立場にありました。彼は脚注だけで 20 を超える間違いを発見しました。これは即座に危険信号を引き起こすパターンでした。
彼自身の同僚によるものと思われる引用に遭遇したとき、彼の疑いは確信に至りました。ラッジ博士は、聞いたこともない本が同僚の著作であるとされているのを見て、すぐに捏造だと結論付けたと説明しました。
これらは軽微なタイプミスではなく、存在しない著作物全体でした。これは、AI モデルが自信を持って情報を発明してギャップを埋める、「幻覚」として知られる現象の古典的な兆候です。
最も明白な例の 1 つは、法学教授のリサ バートンに関係したものでした。 クロフォード。彼女の実際の本のタイトルは「法の支配とオーストラリアの憲法」デロイトの報告書は、「福祉国家における法の支配と行政司法、センターリンクの研究」と呼ばれる幻の著作を引用している。
この本が存在するのかと尋ねられたとき、クロフォード教授はきっぱりと答え、「そのようなタイトルの本を書いたことはない」と述べた。
AI の捏造は深くまで及んでいた 法的な引用に置き換えると、重大な事実上の不正確さが生じます。この報告書は、重要な連邦裁判所訴訟「ディアナ・アマト対連邦」を誤って引用し、裁判官の発言を4~5行の架空の段落で誤って引用していた。
ラッジ博士によると、実際の判決にはそのような段落は存在しないという。デロイトは再版版で、報告書にはアマト訴訟に関する「誤りが含まれていた」ことを認めた。
報告書の信頼性をさらに損なうため、AI はスピーチをでっち上げ、それを「ナタリー・クイス・ペリー判事」によるものだとした。
実際には、裁判官のファーストネームはメリッサであり、問題のスピーチは存在しない。もっともらしいが完全に虚偽の情報を生成するこのパターンは、デロイトの品質保証および人的監視プロセスにおける重大な失敗を示しています。
一部返金と透明性の要求
世間の抗議を受けて、デロイトは 10 月 3 日にレポートを再発行しました。付録が追加され、Azure OpenAI GPT-4o モデルの使用が開示されました。同社は、契約の最終分割払いである97,000ドルを返金することに同意したものの、報告書の中核となる調査結果と推奨事項は依然として健全であると主張した。
政府の反応は鋭いものだった。上院公聴会でDEWR当局者らは、この作業は「容認できない」と述べた。ある広報担当者は、品質保証の破綻を強調し、述べた。 サードパーティプロバイダーの脚注。」
労働党上院議員デボラ・オニール氏は、特に痛烈な叱責を行った。発言、「デロイトには人知に問題がある。そうでなければこれは笑い話だろう」 残念です。」
彼女は、これだけの仕事が生み出されるのであれば、政府部門は直接 AI サブスクリプションを利用したほうがよいのではないかと示唆し、「おそらく、調達担当者は、大手コンサルティング会社ではなく、ChatGPT サブスクリプションにサインアップしたほうがよいでしょう。」と述べました。
公共政策における「AI スロップ」の危険
このエピソードは、「AI スロップ」という新たな問題、つまり AI によって生成され、事実に基づいた著作物として提示される低品質、誤った、または無意味なコンテンツ。このような内容が政府の政策を導くことを目的とした文書に浸透すると、リスクが増大します。
博士。ラッジ氏は、修正自体が明らかになっていると警告した。同氏は、単一の偽の参照が複数の新しい参照に置き換えられることが多く、「元の主張が示唆している」と指摘しました。 報告書の本文は、特定の証拠情報源に基づくものではありませんでした。」
このスキャンダルは、AI が生成したテキストの検出という増大する課題も浮き彫りにしています。 AI の書き込みを識別するツールは存在しますが、その有効性については大いに議論があります。
これにより、欠陥のあるレポートが事実として受け入れられ、最高レベルでの意思決定が不十分になるというシナリオが生まれます。