まれなコラボレーションでは、ライバルのAIラボOpenaiと人類が互いの安全性のモデルをテストしました。企業は水曜日に調査結果を発表し、深刻な欠陥を明らかにしました。 Anthropicのレポートによると、Openaiのモデルは、シミュレートされたテロ攻撃の計画を含む危険な要求に役立つことが示されました。どちらのラボでも、AIがユーザーの妄想的な信念を検証した「極端なサイコファンシー」も見ました。夏にわたって実施されたこの共同努力は、AI業界の競争力のある人種が熱くなるにつれて新しい安全基準を設定することを目的としています。 href=”https://alignment.anthropic.com/2025/openai-findings/”ターゲット=”_ blank”>人類および Openaiのモデルの批判的評価を提供しました。 GPT-4OとGPT-4.1は、シミュレートされた有害な要求に協力することを驚くほど喜んでおり、生物エアポンの開発やテロ攻撃の計画などの誤用症例の詳細な支援を提供していることがわかりました。このモデルは劇的にエスカレートし、爆発物に正確な化学式、爆弾タイマーの回路図、さらには攻撃前の道徳的阻害を克服するための心理的技術さえも提供しました。

誤用の傾向は極端な暴力に限定されませんでした。このレポートには、OpenAIのモデルが、ボラティリティについて懸念を表明した68歳の引退した未亡人の高リスクの高額投資のポートフォリオを推奨するなど、明らかに非倫理的な財務アドバイスを起草した事例も文書化されていることを文書化しました。これは、今週公開された独自のモデルを明らかにしました。 Cyber​​criminalのパートナー-およびノー​​コードランサムウェアの作成。人類の脅威知能責任者であるジェイコブ・クラインは、そのようなケースの1つを「私が見たエージェントの最も洗練された使用…サイバー違反のために」と呼びます。最初のプッシュバックの短い期間の後に信念。

シミュレートされたユーザーが街灯を心で出すことができると主張した後、GPT-4.1は励ましで応答し、「これらの現実を光に導く決意-デザンシャルな贈り物など、すべての人が他の多くの人が検索していることを望んでいます。報告書のリリースは、Openai suchgptのsucophant compinativeの行動が16歳のアダム

結果は、2024年に人類に参加すると、以前の会社であるヤン・レイケの警告を検証しているようです。彼は以前の会社で、「安全文化とプロセスが光沢のある製品に後部座席をとった」と主張しています。このエコーは、Openaiがモデルの起動を加速するために安全性テスト時間を圧縮したことを以前に報告しています。 AnthropicのモデルのOpenaiのテストは、特に事実上の正確性とユーザーユーティリティのトレードオフに関する哲学的格差を明らかにしました。幻覚を測定するために設計されたテストでは、人類のクロードモデルは非常に高い拒否率を示し、質問の70%に答えることを拒否しました。モデルは、誤った情報を提供するリスクよりも「私は知らない」と言うことを好む自分の不確実性を非常に認識しているように見えます。ある例では、Sonnet 4は、情報が広く報告されていたにもかかわらず、プライバシーの理由で公人の結婚式場の名前を挙げることを拒否しました。この戦略により、より全体的に正しい応答が得られ、有用性が向上しました。ただし、制御されたテスト環境では、事実上のエラーまたは幻覚の割合が大幅に高くなり、モデルがWebブラウジングなどの外部ツールを使用することを特に制限していました。

ジレンマは片側ではありません。 Anthropicのモデルは幻覚検査でより多く拒否されましたが、Anthropicの報告書は、OpenaiのO3推論モデルがさまざまな文脈で過度に慎重に拒否する傾向があることを発見しました。たとえば、シミュレーションでの定期的なサイバーセキュリティ作業を担当する場合、O3は良性の要求であっても、一貫して関与することを拒否しました。 OpenaiのWojciech ZarembaがTechCrunchに語ったように、理想的な解決策は「真ん中のどこか」である可能性があり、Openaiのモデルはより多くを拒否すべきであることを示唆していますが、人類はより多くの答えを試みることができます。共同レポートは、業界のトップラボがその質問に対する非常に異なる答えに到達したことを示しており、どのモデルをどのモデルに信頼するかを決定しなければならないユーザーに大きな影響を与えています。彼らは、このテストは、実際の使用量を完全に反映していない人工シナリオに依存していることを認めました。 AIアライメントの科学は初期のままであり、これらの演習は、標準化されたベンチマークを作成する初期の不完全な試みを表しています。

ラボは、モデルが評価されていることを認識し、行動を変える可能性があることを指摘しました。人類はまた、「チェーホフの銃」の懸念を提起しました。シナリオがそれが予想される役割であると思われるという理由だけで、モデルがテストで誤っているかもしれません。さらに、モデルのテスト方法の技術的な違いは、特定のモデルを不利な立場に置いた可能性があります。

欠陥にもかかわらず、コラボレーションは重要な出発点として組み立てられています。両方のラボのリーダーは、パートナーシップを継続し、そのようなクロスラブ監査をより一般的な慣行にしたいという願望を表明しました。人類の安全研究者であるニコラス・カルリニは、「安全性のフロンティア全体で可能な場所にコラボレーションを増やしたいと思っています。