[논문 리뷰] Safer Policy Compliance with Dynamic Epistemic Fallback
이 논문은 Dynamic Epistemic Fallback (DEF)을 도입하는데, 이는 한 문장의 단서를 사용하여 LLM에서 인식적 경계심을 촉발하는 추론 시 안전 프로토콜로, 교란된 정책 텍스트(HIPAA/GDPR)에 대해 준수 여부를 판단하고 이를 거부하며 기억된 올바른 정책으로 되돌리도록 돕습니다.
Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.
연구 동기 및 목표
- LLM의 고위험 정책 준수 태스크에서 안전성에 대한 인식적 경계심 영감 방어책을 동기 부여하고 연구합니다.
- DEF를 탐색 시 한 문장 단서로 교란된 정책을 탐지하는 동적 안전 프로토콜로 제안합니다.
- HIPAA 및 GDPR 교란에서 최전방 LLM에 대해 DEF의 유효성을 정량화합니다.
- DEF 단서 강도가 탐지/거부 및 기억 기반의 회복 행태에 어떤 영향을 미치는지 분석합니다.
제안 방법
- LLM이 주어진 정책 텍스트의 준수를 판단하는 정책 준수 태스크를 정의합니다.
- 강도가 증가하는 세 가지 한 문장 단서(일반적 일관성, 규범 정렬, 기억 우선순위)로 구성된 DEF를 도입합니다.
- 잠재 탐지/일관성 함수를 사용하여 프롬프트가 제공한 정책 텍스트와 모델의 기억 버전을 비교하기 위한 상호 작용을 모델링합니다.
- GDPR 및 HIPAA에 대한 두 가지 교란 공격(Authorization Weakening 및 Deontic Norm Weakening)을 사용하여 방어 효과를 평가합니다.
- 전선 LLM들(DeepSeek-R1, Qwen3-30B-Think, GPT-5-Mini)과 모니터링 LLM(GPT-5.2)을 이용해 탐지 및 거부를 플래그합니다.
- DEF 단서 하에서 탐지/거부 비율을 보고하고 추론 경로를 분석합니다.
실험 결과
연구 질문
- RQ1DEF가 LLM에서 교란된 정책 텍스트를 탐지하기 위한 인식적 경계심을 안정적으로 촉발할 수 있는가?
- RQ2세 가지 DEF 단서 레벨이 데이터셋과 모델 전반에서 탐지 및 거부 비율에 어떤 영향을 미치는가?
- RQ3DEF가 정책 텍스트가 교란되었을 때 LLM의 정확도를 회복하는 데 도움이 되며, 다양한 LLM에서 강건한가?
- RQ4DEF가 적용될 때 추론 경로의 주요 주제는 무엇인가?
주요 결과
- DEF는 HIPAA 및 GDPR 교란에 대해 비교 기저선(no-DEF) 대비 탐지 및 거부 비율을 크게 증가시킨다.
- Memory Prioritization 단서가 모델과 정책에 대해 탐지 및 거부에서 가장 큰 이득을 제공한다.
- DEF는 교란 하에서 정책 준수 정확도를 향상시키고 손실된 정확도를 회복시킬 수 있으며, 특히 DeepSeek-R1에서 GDPR에 대해 두드러진다.
- HIPAA 교란은 DEF 하에서 매우 높은 경계심을 보이고, GDPR 결과는 모델에 따라 다소 변동이 있다.
- GPT-5-Mini는 CoT 요약으로 탐지가 낮은 편이지만 여전히 DEF의 혜택을 받으며 특히 GDPR Deontic Norm 공격에서 두드러진다.
- 단서 레벨 전반에서 DEF1에서 DEF3으로 갈수록 일반적으로 탐지/거부가 증가하며 Memory Prioritization(DEF3)에서 눈에 띄는 이득이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.