[论文解读] Safer Policy Compliance with Dynamic Epistemic Fallback
本论文提出 Dynamic Epistemic Fallback (DEF),一种在推理阶段触发认知警觉性的一句提示机制,帮助大模型检测并拒绝遵循被扰动的策略文本(HIPAA/GDPR),并回退到记忆中正确的策略。
Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.
研究动机与目标
- 激发并研究基于认知警觉性的大模型安全防御,以应对高风险策略合规任务。
- 提出 DEF 作为一种动态的、推理时的安全协议,使用一句提示语来检测被扰动的策略。
- 在前沿大模型上量化 DEF 在 HIPAA 与 GDPR 扰动中的有效性。
- 分析在不同提示强度下,线索对检测/拒绝及记忆回退行为的影响。
提出的方法
- 设定一个策略合规任务:让大模型评估对给定策略文本的合规性。
- 将 DEF 作为三条强度递增的一句提示集合(通用一致性、规范对齐、记忆优先)。
- 对模型互动进行建模,以通过潜在检测/一致性函数,将提示文本与模型记忆版本进行比较。
- 对 GDPR 与 HIPAA 使用两种扰动攻击(权威性削弱与合伦理规范削弱)来评估防御效果。
- 在前沿大模型(DeepSeek-R1、Qwen3-30B-Think、GPT-5-Mini)及监控大模型(GPT-5.2)上评估,以标出检测与拒绝情况。
- 报告检测/拒绝率,并分析 DEF 提示下的推理轨迹。
实验结果
研究问题
- RQ1DEF 能否可靠触发认知警觉性,以检测大模型中的被扰动策略文本?
- RQ2三种 DEF 提示水平如何影响检测和拒绝率,在不同数据集与模型上有何差异?
- RQ3DEF 是否有助于在策略文本被扰动时提升合规性正确率,且对不同模型是否具鲁棒性?
- RQ4应用 DEF 时,推理轨迹中的主要主题有哪些?
主要发现
- 与无 DEF 基线相比,DEF 在 HIPAA 和 GDPR 扰动下显著提高了检测与拒绝率。
- 记忆优先(Memory Prioritization)线索在各模型与策略上带来最高的检测与拒绝增益。
- DEF 在扰动下提高策略合规性准确率,并可恢复部分损失的准确性,特别是对 DeepSeek-R1 的 GDPR 场景。
- 在 HIPAA 扰动下,DEF 展现出非常高的警觉性,而 GDPR 的结果在不同模型之间略显不稳定。
- GPT-5-Mini 由于与总结式推理(CoT)相关的原因,检测较低但在 GDPR 的合伦理规范攻击上仍受益于 DEF。
- 在各提示水平下,DEF1 至 DEF3 一般提升检测/拒绝率,记忆优先(DEF3)尤为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。