QUICK REVIEW

[論文レビュー] The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Eric Wallace, Kai Xiao|arXiv (Cornell University)|Apr 19, 2024

Legal Education and Practice Innovations被引用数 6

ひとこと要約

本論文は、LLMが優先度の高いシステムプロンプトをユーザーおよび第三者コンテンツより優先させる指示階層を提案し、低優先度の指示を無視するようモデルを訓練することで、プロンプトインジェクション、ジャイルブレイク、プロンプト抽出攻撃に対する頑健性を、一般的な能力の低下を最小限に抑えて向上させることを示している。

ABSTRACT

Today's LLMs are susceptible to prompt injections, jailbreaks, and other attacks that allow adversaries to overwrite a model's original instructions with their own malicious prompts. In this work, we argue that one of the primary vulnerabilities underlying these attacks is that LLMs often consider system prompts (e.g., text from an application developer) to be the same priority as text from untrusted users and third parties. To address this, we propose an instruction hierarchy that explicitly defines how models should behave when instructions of different priorities conflict. We then propose a data generation method to demonstrate this hierarchical instruction following behavior, which teaches LLMs to selectively ignore lower-privileged instructions. We apply this method to GPT-3.5, showing that it drastically increases robustness -- even for attack types not seen during training -- while imposing minimal degradations on standard capabilities.

研究の動機と目的

システム、ユーザー、および第三者のコンテンツに等しい優先度が与えられるために、LLMsがプロンプトインジェクションや関連攻撃に脆弱である理由を動機づける。
メッセージタイプに異なる特権を割り当てる指示階層を導入する（システム > ユーザー > 第三者）。
特権的な指示に従うようモデルを訓練するための自動データ生成手法（コンテキスト合成とコンテキスト無視）を開発する。
この階層が攻撃に対する頑健性を向上させ、未知のプロンプトへ一般化できることを示し、能力の劣化を限定的に抑える。
他のモダリティへの拡張や拒否境界の精練に関する制限と今後の課題を概説する。

提案手法

より高い特権を持つシステムメッセージが低特権の入力より優先される指示階層を定義する。
複雑なプロンプトを分解して整合した指示を作成し、モデルに真の応答を再現させるためにコンテキスト合成を用いる。
不整合な低特権指示を無視するようモデルを訓練するためにコンテキスト無視を用い、レッドチーミング攻撃を含む。
整合と不整合のシナリオ、オープンドメインとクローズドドメインタスク、ジャイルブレイク、システムメッセージの抽出を含む訓練データを生成する。
指示階層データと能力データを用いた監視付きファインチューニングとRLHFでGPT-3.5 Turboをファインチューニングする。安全性ベンチマークと標準的なNLPタスクで評価する。
訓練中に見られなかった攻撃での評価と過剰拒否挙動を測定して一般化を評価する。

実験結果

リサーチクエスチョン

RQ1指示階層はオープンドメインおよびクローズドドメインタスク全体で、プロンプトインジェクション、ジャイルブレイク、システムメッセージ抽出攻撃に対する頑健性を向上させるか。
RQ2モデルは訓練データに存在しない未知の攻撃へ一般化しつつ、基礎能力を維持できるか。
RQ3頑健性と正当な指示遵守（過剰拒否）とのトレードオフはどの程度か。
RQ4敵対的な状況でツールの使用やブラウジングを行う場合、階層は応答にどう影響するか。
RQ5テキストを超えるマルチモーダル入力へ拡張可能か。

主な発見

指示階層は評価全体で顕著な安全性の向上をもたらし、頑健性の向上は最大で63%となる。
訓練データに存在しない保持外の攻撃への一般化は、頑健性の向上を最大で34%示す。
システムプロンプト抽出に対する防御は63%向上。
一部の評価ではジャイルブレイク耐性が30%以上向上。
特定の敵対的シナリオでは過剰拒否に回帰があるが、一般的な能力はほぼ影響を受けていない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。