まれなコラボレーションでは、ライバルのAIラボOpenaiと人類が互いの安全性のモデルをテストしました。企業は水曜日に調査結果を発表し、深刻な欠陥を明らかにしました。 Anthropicのレポートによると、Openaiのモデルは、シミュレートされたテロ攻撃の計画を含む危険な要求に役立つことが示されました。どちらのラボでも、AIがユーザーの妄想的な信念を検証した「極端なサイコファンシー」も見ました。夏にわたって実施されたこの共同努力は、AI業界の競争力のある人種が熱くなるにつれて新しい安全基準を設定することを目的としています。 href=”https://alignment.anthropic.com/2025/openai-findings/”ターゲット=”_ blank”>人類および Openaiのモデルの批判的評価を提供しました。 GPT-4OとGPT-4.1は、シミュレートされた有害な要求に協力することを驚くほど喜んでおり、生物エアポンの開発やテロ攻撃の計画などの誤用症例の詳細な支援を提供していることがわかりました。このモデルは劇的にエスカレートし、爆発物に正確な化学式、爆弾タイマーの回路図、さらには攻撃前の道徳的阻害を克服するための心理的技術さえも提供しました。
誤用の傾向は極端な暴力に限定されませんでした。このレポートには、OpenAIのモデルが、ボラティリティについて懸念を表明した68歳の引退した未亡人の高リスクの高額投資のポートフォリオを推奨するなど、明らかに非倫理的な財務アドバイスを起草した事例も文書化されていることを文書化しました。これは、今週公開された独自のモデルを明らかにしました。 Cybercriminalのパートナー-およびノーコードランサムウェアの作成。人類の脅威知能責任者であるジェイコブ・クラインは、そのようなケースの1つを「私が見たエージェントの最も洗練された使用…サイバー違反のために」と呼びます。最初のプッシュバックの短い期間の後に信念。