OpenAI は水曜日、開発者が独自のコンテンツ安全性ルールを強制できるように設計されたオープンウェイト AI モデルの新しいファミリーである gpt-oss-safeguard をリリースしました。

同社は、寛容な Apache 2.0 ライセンスの下で 2 つのモデル サイズを Hugging Face で利用できるようにし、無料の商用利用を許可しました。

従来の安全性ツールとは異なり、これらのモデルは推論を使用して、開発者が作成したポリシーをリアルタイムで解釈して適用します。このアプローチにより、プラットフォームはコンテンツをモデレートするためのより柔軟で透明な方法を提供できます。

このリリースは、OpenAI が一般の人々や規制当局の監視が高まる中、製品全体の安全性を強化するために取り組んでいる中で行われます。 gpt-oss-safeguard-120b および gpt-oss-safeguard-20b と名付けられたこの新しいモデルは、8 月に無差別級シーンに復帰した同社の gpt-oss ファミリの特殊バージョンです。

新しいアプローチ: 推論に基づく安全性開発者

従来の方法から移行し、新しいモデルでは、コンテンツ分類に対する推論ベースのアプローチが導入されています。標準の安全性分類子は、通常、安全なコンテンツと安全でないコンテンツの手動でラベル付けされた数千の例を使用してトレーニングされます。

ポリシーの推論は学習しますが、ルールを直接見ることはなく、ルールが厳格になり、広範な再トレーニングなしでは更新することが困難になります。

gpt-oss-safeguard の動作は異なります。開発者が作成したポリシーと、それに対して判定されるコンテンツという 2 つの入力を同時に必要とします。

モデルは思考連鎖プロセスを使用して、ポリシーを推論して分類に到達します。開発者はこの推論を確認して、モデレーションの決定に関する明確な監査証跡を提供できます。これにより、このシステムは、大規模なラベル付きデータセットが存在しない、微妙な、または急速に進化する安全性の課題に高度に適応できるようになります。

たとえば、ゲーム フォーラムが不正行為に関する議論にフラグを立てるためにこれを使用したり、レビュー サイトが独自の基準を使用して偽の体験談を選別したりできます。

OpenAI は、この方法が、高品質で説明可能な安全ラベルを作成するよりも遅延が重要ではない場合に特に強力であることを示唆しています。 Apache 2.0 ライセンスの選択も重要な動きであり、その寛容な性質により広範な採用と商用利用が促進され、より制限的なライセンスに存在する障壁が取り除かれます。

コミュニティ コラボレーションとオープン セーフティへの道

オープンソース コミュニティにとっての重要な動きとして、OpenAI は、Discord、SafetyKit、ROOST などのいくつかの信頼および安全組織と協力して gpt-oss-safeguard を開発しました。 (堅牢なオープンオンライン安全ツール)。このパートナーシップ アプローチは、日常的に使用する実務者からの直接の意見を取り入れて安全ツールを構築することを目的としています。

立ち上げの一環として、ROOST は、研究者と安全専門家を結びつけることを目的とした GitHub 上の新しい取り組みである ROOST モデル コミュニティ (RMC) を設立しています。

その目標は、ベスト プラクティスを共有し、オンライン スペースを保護するためのオープンソース AI モデルを改善することです。 ROOST の CTO である Vinay Rao 氏は、このモデルのデザインを賞賛しました。 「gpt-oss-safeguard は、『独自のポリシーと危害の定義を持ち込む』設計を備えた初のオープンソース推論モデルです。」

同氏はさらに、「私たちのテストでは、さまざまなポリシーを理解し、その推論を説明し、ポリシーを適用する際のニュアンスを示すのが上手でした。これは建設業者や安全チームにとって有益であると信じています。」

この意見は ROOST 社長のカミーユ フランソワ氏にも同調し、次のように述べています。

コンテキストが鍵: 安全性の精査の中でのタイムリーなリリース

厳しい規制圧力を背景に、同社の新しい安全ツールのリリースは特にタイムリーです。

数十万人のユーザーが自傷行為や精神病に関連した会話を OpenAI が行っていることを OpenAI が明らかにしてからわずか 1 日後に発表されました。 ChatGPT は毎週、このリリースで主要な安全性アップデートの要求に直接対応しています。

評価額が 5,000 億ドルで、ユーザー ベースが毎週 8 億人を超えるアクティブ ユーザーであることから、OpenAI の安全性への課題の規模は計り知れません。

gpt-oss-safeguard の背後には、同社にとってまったく新しいわけではないテクノロジーがあります。 OpenAI は、独自の「多層防御」安全スタックのコア コンポーネントとして、Safety Reasoner と呼ばれる同様のより強力な内部ツールを使用していることを明らかにしました。

この内部システムは、進化するポリシーに対してコンテンツをリアルタイムで動的に評価することで、GPT-5 や Sora 2 などの高度なモデルの保護に役立ちます。

このアプローチのオープンウェイト バージョンをリリースすることで、OpenAI は、内部安全戦略の重要な部分をより広範な開発者エコシステムで利用できるようにしています。

制限と今後の道のり

革新的なアプローチにもかかわらず、OpenAI はモデルの制限について透明性があります。複雑なリスクについては、数万の高品質のラベル付きサンプルでトレーニングされた専用の分類器が依然として高いパフォーマンスを達成できると同社は指摘しています。

推論プロセスは従来の方法よりも時間と計算量が多く、非常に低いレイテンシーで大量のコンテンツを処理する必要があるプラットフォームにとって課題となる可能性があります。

OpenAI 内部では、より小型で高速な分類器を使用して問題の可能性があるコンテンツを最初に特定し、その後、この分類器を組織に渡すことでこれを軽減します。詳細な分析のためのより強力な Safety Reasoner。この段階的なアプローチは、開発者が採用する可能性のあるモデルです。

現時点では、gpt-oss-safeguard のリリースは、より透明性があり、適応性があり、コミュニティ主導型の AI 安全システムの構築に向けた重要な一歩を示しており、開発者はオンラインの安全性をめぐる継続的な戦いにおいて強力な新しいツールを提供します。

Categories: IT Info