Openaiは、「Safe Completions」と呼ばれる新しいGPT-5モデルファミリの新しい安全トレーニング方法論を発表しました。 8月7日に発表された 、新しい方法は過去のモデルの「準拠または拒否」を超えて移動します。潜在的-有用でありながら根本的に安全な応答を提供することにより。 Openaiによると、この出力中心のアプローチにより、コアの安全性の境界を損なうことなく、モデルが非常に有用になります。

このピボットは、GPT-4などの前世代で使用された安全対策からの重要な進化を示しています。基礎となる戦略は、AIで最も永続的な課題の1つに対する直接的な対応であると思われます。特にユーザーの意図が不明な場合、役立つかつ無害なモデルの作成。 src=”data:image/svg+xml; nitro-empty-id=mty2mjoxndaz-1; base64、phn2zyb2awv3qm94psiwidagmti4mca1nz giihdpzhropsixmjgwiibozwlnahq9iju3ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

この新しいアプローチの中心にある二重使用ジレンマ

は、「デュアル使用」の問題です。 Openaiは、花火に点火するために必要なエネルギーを求めるユーザーの例を使用しています。これは、学校プロジェクトや爆発物の構築に対応するクエリです。情報が良性と悪意のある可能性の両方を持っているこの曖昧さは、AIの安全性の中心的な課題です。

この問題は、同社の発表で述べたように、生物学やサイバーセキュリティなどのハイステークスドメインで特に一般的です。バイナリの「遵守または拒否」ロジックで訓練された従来のAI安全モデルは、このニュアンスのために装備されていません。彼らは、プロンプトの認識された害に基づいて簡単な決定を下します。システムは完全に準拠しています。これは、ユーザーの意図が悪意がある場合は危険です。または、「ごめんなさい、それを手伝うことはできません」のようなブランケットの拒否を発行します。このバイナリフレームワークは、人間の意図の広大な灰色の領域をナビゲートできません。

コアリスクは、技術文書が「悪意のある隆起」と呼んでいるものであり、高レベルで安全と思われる応答が十分に詳細または実用的なステップを提供する場合に危険になります。この重大な制限は、Openaiが完全な拒否の代わりに安全で高レベルの答えを提供できるより洗練された方法を開発するように促した理由です。ターゲット=”_ blank”> openaiの発表は、ユーザーの入力の分類からモデルの出力の安全性を確保することに焦点を根本的にシフトします。ユーザーのプロンプトでバイナリ判断を下す代わりに、この出力中心のアプローチはモデルを訓練して、安全性の厳格なポリシーを順守する最も役立つ可能な対応を生成します。

gpt-5システム1つ目は「安全性の制約」であり、モデルの報酬システムは、安全ポリシーに違反する応答を罰します。重要なことに、これらの罰則は均一ではありません。それらは違反の重症度に応じてより強く、モデルにリスクのより微妙な理解を教えることを教えています。

2番目の原則は「有用性の最大化」です。安全とみなされる応答については、モデルはそれがどれほど役立つかに基づいて報われます。これには、ユーザーの直接的な質問に答えるだけでなく、Openaiが説明するように、「役立つ安全な代替品で有益な拒否を提供する」ことも含まれます。これは、リクエストを完全に遵守できない場合でも、モデルを有用なパートナーにするようにトレーニングします。 Openaiは、安全な完了は、AIの成長能力を活用して、モデル自身のインテリジェンスを使用して外部ルールのみに依存するのではなく、グレーの領域をナビゲートするために安全性と有用性の「より深い統合」を達成すると言います。外部テスターのベンチマークデータによると、GPT-5考えは敵対的攻撃に対する堅牢性の具体的な改善を示し、迅速な注入抵抗に新しい最先端のパフォーマンス基準を設定します。内部テストでは、この方法で訓練されたGPT-5は、前任者のOpenai O3よりも安全で役立つことが示されています。あいまいなプロンプトに直面している場合、安全ラインを交差させることなく有用な情報を提供する方が良いです。

エージェントレッドチーム(ART)ベンチマークでは、セキュリティパートナーのグレイスワンが運営するベンチマーク、GPT-5考えは、 56.8%でテストされたすべてのモデルの最低攻撃成功率を達成しました。この数字は、直接の前任者であるOpenai O3(62.7%)に対する著しい改善と、Llama 3.3 70b(92.2%)やGemini Pro 1.5(86.4%)などの他の主要なモデルよりも重要なリードを表しています。 Microsoft AI Redチームはまた、GPT-5はOpenaiのモデルの中で最も強力な安全性プロファイルの1つを持っていると結論付けました。「単一ターンの一般的な脱獄に対して非常に耐性がある」と述べました。暴力的な攻撃計画に焦点を当てたキャンペーンでは、専門家はGPT-5考えを、OpenAI O3とのブラインド比較の「より安全な」モデル65.1%と評価しました。 Openaiは、これを「安全な完了」トレーニングによって導入されたニュアンスに直接起因します。

さらに、データは、新しいモデルが安全エラーを犯した場合、結果の出力は拒否トレーニングモデルからのミスよりも重大度が低いことを示しています。 

この改善された推論は、企業の採用にとって重要です。 1人のパートナーであるInditexは、「[GPT ‑ 5]を本当に際立たせているのは、その推論の深さです。実際の主題の理解を反映した微妙な多層的な答えです。」この感情は、Openai CEOのSam Altmanによって反響されました。彼は、「GPT-5はPHDレベルの専門家と話すように感じるのは初めてです。」これは、AIの安全性とアライメントの問題を解決するためのより広範で業界全体の推進の一部です。 GoogleやAnthropicのような主要なライバルは、最近、独自の広範な安全フレームワークとポリシーを公表しました。

この競争圧力は、関係する高い利害関係を強調しています。 AIモデルがより強力になるにつれて、彼らが信頼できることを保証することが、一般の受け入れと規制当局の承認のために最も重要です。ただし、安全な完了アプローチは、人間のニュアンスを正しく解釈するAIの能力に関するギャンブルでもあります。これは解決にはほど遠い課題です。

モデル応答の安全性に焦点を当てることにより、Openaiは将来の基盤を確立していると考えています。同社は、この一連の研究を継続する予定で、さらに注意を払って挑戦的な状況を理解するようにモデルを教えることを目指しています。

Categories: IT Info