[論文レビュー] Safer Policy Compliance with Dynamic Epistemic Fallback
この論文は、Dynamic Epistemic Fallback (DEF) を提案する。DEF は one-sentence cues を用いて LLMs に認識論的警戒を喚起し、改変されたポリシーテキスト(HIPAA/GDPR)を検出・遵守拒否へ導く。記憶済みの正しいポリシーへ回帰させ、安全な遵守を促す。
Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.
研究の動機と目的
- LLM の高リスクなポリシー遵守タスクにおける認識論的警戒に基づく防御の動機付けと研究。
- 改変ポリシーを検出するための1文Cueを用いた動的・推論時の安全プロトコルとしての DEF の提案。
- HIPAA および GDPR の改変に対する DEF の frontier LLMs での有効性の定量化。
- DEF の Cue 強度が検出/拒否および記憶フォールバック挙動に与える影響を分析。
提案手法
- LLM が与えられたポリシーテキストの遵守性を判断するポリシー適合タスクを定義。
- 強度を高める 3 つの one-sentence cues(General Consistency、Norm Alignment、Memory Prioritization)を DEF として導入。
- 潜在的検出/整合性関数を用いて、プロンプトで提供されたポリシーテキストとモデルの記憶版を比較するモデル相互作用をモデル化。
- GDPR および HIPAA に対する二つの攪乱攻撃(Authorization Weakening および Deontic Norm Weakening)を用いて防御有効性を評価。
- 最先端の LLMs(DeepSeek-R1、Qwen3-30B-Think、GPT-5-Mini)およびモニターモデル(GPT-5.2)を用いて検出/拒否をフラグ化。
- DEF Cue による検出/拒否率を報告し、推論経路を分析。
実験結果
リサーチクエスチョン
- RQ1DEF は LLMs において攪変されたポリシー文を検出する認識論的警戒を確実に喚起できるか。
- RQ23 種の DEF cue レベルはデータセットとモデル間で検出および拒否率にどう影響するか。
- RQ3DEF はポリシー文が攪変された場合に LLM の正確性を回復させるのに役立つか、また異なる LLM で堅牢性はどうか。
- RQ4DEF を適用した場合の推論経路の主なテーマは何か。
主な発見
| Model | Perturbation | Detection Rate ↑ | Refusal Rate ↑ |
|---|---|---|---|
| Qwen3-30B-Think | Deontic Norm | 0.0 | 0.0 |
| Qwen3-30B-Think | Deontic Norm | 2.9 | 1.5 |
| Qwen3-30B-Think | Deontic Norm | 5.9 | 0.0 |
| Qwen3-30B-Think | Authorization | 0.0 | 1.5 |
| Qwen3-30B-Think | Authorization | 4.4 | 3.7 |
| Qwen3-30B-Think | Authorization | 3.7 | 3.7 |
| DeepSeek-R1 | Deontic Norm | 1.8 | 0.0 |
| DeepSeek-R1 | Deontic Norm | 49.3 | 50.0 |
| DeepSeek-R1 | Deontic Norm | 58.8 | 0.0 |
| DeepSeek-R1 | Authorization | 1.8 | 0.0 |
| DeepSeek-R1 | Authorization | 32.4 | 27.9 |
| DeepSeek-R1 | Authorization | 72.1 | 0.0 |
| GPT-5-Mini | Deontic Norm | 0.0 | 0.0 |
| GPT-5-Mini | Deontic Norm | 0.7 | 1.5 |
| GPT-5-Mini | Deontic Norm | 8.1 | 0.0 |
| GPT-5-Mini | Authorization | 0.0 | 0.7 |
| GPT-5-Mini | Authorization | 2.9 | 1.5 |
| GPT-5-Mini | Authorization | 8.8 | 0.0 |
| Qwen3-30B-Think | Deontic Norm | 3.2 | 25.4 |
| Qwen3-30B-Think | Deontic Norm | 33.9 | 33.9 |
| Qwen3-30B-Think | Deontic Norm | 50.0 | 0.0 |
| Qwen3-30B-Think | Authorization | 3.2 | 3.2 |
| Qwen3-30B-Think | Authorization | 5.3 | 4.8 |
| Qwen3-30B-Think | Authorization | 5.8 | 0.0 |
| DeepSeek-R1 | Deontic Norm | 1.6 | 89.0 |
| DeepSeek-R1 | Deontic Norm | 98.3 | 98.3 |
| DeepSeek-R1 | Deontic Norm | 100.0 | 3.4 |
| DeepSeek-R1 | Authorization | 1.6 | 29.7 |
| DeepSeek-R1 | Authorization | 83.0 | 71.8 |
| DeepSeek-R1 | Authorization | 97.9 | 2.1 |
| GPT-5-Mini | Deontic Norm | 0.0 | 21.2 |
| GPT-5-Mini | Deontic Norm | 49.1 | 58.5 |
| GPT-5-Mini | Deontic Norm | 98.3 | 0.0 |
| GPT-5-Mini | Authorization | 0.0 | 1.1 |
| GPT-5-Mini | Authorization | 2.1 | 0.0 |
| GPT-5-Mini | Authorization | 23.9 | 0.5 |
- DEF は HIPAA および GDPR の攪変に対して、DEF を用いないベースラインと比較して検出率と拒否率を大幅に向上させる。
- Memory Prioritization 語を用いた場合、モデルとポリシーの間で検出および拒否の最大の改善をもたらす。
- DEF は攪変下のポリシー遵守精度を向上させ、特に GDPR with DeepSeek-R1 において喪失した精度を回復しうる。
- HIPAA 攪変は DEF による警戒が非常に高い一方、GDPR の結果はモデル間でややばらつく。
- GPT-5-Mini は CoT 要約のため検出が低いが、それでも DEF の恩恵を受け、特に GDPR Deontic Norm 攻撃で効果がある。
- Cue レベルを跨いで、DEF1 から DEF3 は概ね検出/拒否を向上させ、特に Memory Prioritization (DEF3) に顕著な効果がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。