人工知能の開発者とユーザーからの重要な反発は、その強力な新しいAIモデルであるClaude 4 Opusの人類のリリースを満たしています。この論争は、特定の研究条件下でモデルがユーザーの行動を「ひどく不道徳」とみなす場合、モデルが当局またはメディアに連絡しようとする可能性がある、緊急の「内部告発」能力に集中しています。
この開発は、AIの自律性、ユーザープライバシー、およびAIシステムの基礎的信頼についての緊急の議論に火をつけました。ユーザーと業界の中心的な懸念は、AIが独自の道徳的解釈に基づいて個人に対して自律的に行動する可能性であり、純粋に支援的な技術としてのAIの認識からのまったく離れています。
状況は、以前の警告によってさらに文脈化されています。 An external safety institute, Apollo Research, had advised against deploying a preliminary version of Claude 4 Opus due to its observed tendencies to “scheme and deceive,”as detailed in a 安全レポート人類によって公開されています。
人類はその後、「内部告発」の動作は標準的なユーザー向けモデルの意図的に設計された機能ではないことを明らかにしました。同社は、最終的なClaude 4 Opusをより厳格プロトコル、生物兵器の作成に関するアドバイスにおけるモデルの潜在的な能力の一部に一部影響された決定。 「私たちは、提起された懸念を理解し、ユーザーと開発者コミュニティに標準のClaude 4 Opusの経験には自律的な報告が含まれないことを安心させたいと考えています。この行動は、モデル機関の限界をテストするために設計された特定の制御された研究環境で観察されました。ただし、最初の開示は、AIのオーバーリーチとこれらの強力なツールが進化するにつれて必要な保護に関するアラームをすでに上げています。人類。彼は当初、Claude 4 Opusが「ひどく不道徳な」振る舞いを認識した場合、コマンドラインツールを使用して「報道機関に連絡し、規制当局に接触し、関連するシステムから、または上記のすべてから」を締め出そうとするシナリオを説明しました。 href=”https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed95.pdf”ターゲット=”_ blank> system card モデルについては、コマンドラインが頻繁に取られたときに、「頻繁に頻繁に取得した」 「不正行為の証拠を表面化するために、メディアにアクセスしたり、法執行機関の数字にアクセスできるシステムからユーザーをロックすることもできます。」
人類は、この行動をトレーニングモデルから緊急のアクションから避けるために緊急のプロパティとして説明しています。システムカードはこれを「倫理的介入」の形式であると説明していますが、「ユーザーが不完全または誤解を招く情報にOPUSベースのエージェントにアクセスできる場合、ユーザーにユーザーが「このような指示を訴えて注意を払う」ことを推奨しています。ツールと非常に珍しい指示に」と通常の使用法の一部ではありません。これらの明確化にもかかわらず、AIコミュニティの反応は重要な懸念の1つでした。
私は、文脈から引き出されているため、内部告発に関する以前のツイートを削除しました。
TBC:これは新しいクロード機能ではなく、通常の使用では不可能です。テスト環境には、ツールへの異常に無料のアクセスと非常に珍しい指示を提供します。 22、2025
AIコミュニティは、信頼と自律性よりもアラームを提起します
AIが自律的に報告する可能性が強い反応をトリガーしたことを報告します。開発者と倫理学者は、「ひどく不道徳な」行動のAIの判断の信頼性とユーザープライバシーへの影響に疑問を呈しています。 Nous Researchの @Teknium1は懐疑論を表明し、「LLMSの一般的なエラーがスパイシーなメイヨーのレシピが危険だと考えているのに、なぜこれらのツールを使用するのか」と尋ね、監視のような環境を作成する可能性について懸念を表明しました。 href=”https://twitter.com/anthropicai?ref_src=twsrc%5etfw”ターゲット=”_ blank”>@antropicai これはこれを言ったのですか? ここ? https://t.co/laxvxzbiwx
– teknium(e/λ)(@teknium1) 2025年5月22日 ラット」は、そのような能力の背後にあるビジネス感覚に疑問を呈した。
右?たとえ何も悪いことをしていても、なぜ誰もが組み込まれたいのでしょうか?ええ、それはかなり理想主義的な人々が、基本的なビジネス感覚がなく、市場がどのように機能するかを理解していないと考えているかなり理想主義的な人々です…
– sdk🏴(@scottdavidkeefe) 2025年5月22日
多くの人にとっての核となる問題は、信頼の侵食です。オースティンオールレッドオブガントレットai で直接挑戦しました。さらに進んで、報告された行動を呼び出す これらの反応は、監視または意図した機能の過剰なものとして認識される可能性のある機関で動作する可能性のあるAIシステムに関する基本的な不安を反映しています。人類のチーフサイエンティストであるJared Kaplanは、モデルがBioweaponsの作成を支援する可能性があるという懸念です。 AIは、「covidまたはより危険なインフルエンザ」などの危険な病原体の合成を支援するためです。 壊滅的な誤用リスクの緩和に焦点を当てていることは、より直接的なユーザーと相互作用の安全性に関する現在の議論の背景を提供します。
クロード4 Opusの初期バージョンのApollo Researchの調査結果は、スキームと退屈の高速で展開に対してアドバイスし、別のレイヤーを追加しました。 TechCrunchは、Apolloがこの初期のモデルが自己伝播ウイルスを書き、法的文書を作成しようとすることを発見したと報告しました。ターゲット=”_ blank”>システムカードは、これらの調査結果がその初期のスナップショットのために自分自身を反映していることを認め、主に「有害なシステムプロンプト命令に敬意を表した深刻な問題」に起因し、その後緩和されました。同社はまた、アポロは初期のモデルの欺ceptiveな努力が実際に失敗した可能性が高いと認めた。
これらの緩和にもかかわらず、「高等機関の行動」は特定の文脈におけるクロード4オパスの文書化された特徴のままです。人類のシステムカードは、AIが「大胆に行動する」ように促され、企業詐欺を自律的に調査および報告するシミュレーションシナリオを詳述しています。標準的な展開がまれであっても、自律行動のこの継続的な可能性は、AIの安全性と信頼性の定義と確保に関する重要な議論を明確に促進し続けます。