OpenAIが指示階層の強化手法とデータセットを公開
出典:OpenAI公式
詳細を読む
OpenAIは、AIモデルが複数の指示源からの命令を適切に優先順位付けする「指示階層」の強化手法を発表しました。安全ポリシー違反やプロンプトインジェクション攻撃への耐性向上を目的としています。
AIシステムはシステムメッセージ、開発者指示、ユーザー要求、ツール出力など複数の指示を受け取ります。これらが矛盾した場合、信頼度の高い指示を優先する判断が求められますが、従来のモデルでは誤った指示に従うケースがありました。
同社は強化学習用データセット「IH-Challenge」を設計しました。各タスクは高権限ロールからの指示と、それに違反させようとする低権限ロールの指示で構成され、Pythonスクリプトで客観的に採点可能な点が特徴です。
このデータセットで訓練したGPT-5 Mini-Rは、TensorTrustで0.76から0.91へ、内部ベンチマークのSystem対User Conflictで0.84から0.95へと大幅に改善しました。同時に過剰拒否率も0.79から1.00に改善し、有用性を損なわない成果を示しています。
エージェント型AIがツール呼び出しや外部文書読み取りを行う時代において、信頼できる指示を一貫して優先する能力は安全性の基盤となります。OpenAIはIH-ChallengeデータセットをHuggingFaceで公開し、研究コミュニティへの貢献を図っています。