[논문 리뷰] ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack
ReasAlign은 구조화된 추론과 테스트 시 판사를 통해 간접 프롬프트 인젝션 공격을 탐지하고 완화하여 방어되지 않은 모델에 가까운 유용성을 유지하면서 보안을 강화합니다. CyberSecEval2를 포함한 다수 벤치마크에서 Meta SecAlign을 능가합니다.
Large Language Models (LLMs) have enabled the development of powerful agentic systems capable of automating complex workflows across various fields. However, these systems are highly vulnerable to indirect prompt injection attacks, where malicious instructions embedded in external data can hijack agent behavior. In this work, we present ReasAlign, a model-level solution to improve safety alignment against indirect prompt injection attacks. The core idea of ReasAlign is to incorporate structured reasoning steps to analyze user queries, detect conflicting instructions, and preserve the continuity of the user's intended tasks to defend against indirect injection attacks. To further ensure reasoning logic and accuracy, we introduce a test-time scaling mechanism with a preference-optimized judge model that scores reasoning steps and selects the best trajectory. Comprehensive evaluations across various benchmarks show that ReasAlign maintains utility comparable to an undefended model while consistently outperforming Meta SecAlign, the strongest prior guardrail. On the representative open-ended CyberSecEval2 benchmark, which includes multiple prompt-injected tasks, ReasAlign achieves 94.6% utility and only 3.6% ASR, far surpassing the state-of-the-art defensive model of Meta SecAlign (56.4% utility and 74.4% ASR). These results demonstrate that ReasAlign achieves the best trade-off between security and utility, establishing a robust and practical defense against prompt injection attacks in real-world agentic systems. Our code and experimental results could be found at https://github.com/leolee99/ReasAlign.
연구 동기 및 목표
- LLM 기반 에이전트의 안전한 작동을 유도하기 위해 간접 프롬프트 인젝션 공격으로부터 보호합니다.
- 주입된 콘텐츠와 구분된 사용자 의도를 분석하는 추론 기반 내부 가드레일을 개발합니다.
- 직접 선호도 최적화(DPO)를 사용하여 가장 우수한 추론 경로를 선택하기 위한 구조화된 추론과 테스트 시 스케일링을 활용합니다.
- 이전 가드레일에 비해 공격 성공률(ASR)을 크게 감소시키면서도 높은 작업 유용성을 유지합니다.
- 일반 지식, 지시 수행, 에이전트 워크플로 benchmarks 전반에 걸친 견고성을 입증합니다.
제안 방법
- SQuADv2, TaskTracker, BeaverTails에서 주입 샘플을 합성하여 주입 방어를 위한 구조화된 추론 데이터세트를 구성합니다.
- 주입된 지시를 명시적으로 강조 표시하는 문제 분석(Problem Analysis), 추론(Reasoning), 최종 답안 생성(Final Answer Generation)의 3단계 추론 프로세스를 사용합니다.
- 추론 데이터세트의 안전 정렬을 위해 저랭크 적응(LoRA) 지시 학습을 적용합니다.
- 직접 선호도 최적화(DPO)를 사용하여 판정을 훈련하고 최적의 추론 경로를 점수화하고 선택하기 위해 테스트 시 스케일링(빔 검색+논리 판단자)을 도입합니다.
- 일반 지식, 지시 수행, 에이전트 워크플로 benchmarks에서 방어전과 이전 가드레일 대비 유용성과 ASR를 비교 평가합니다.
- 일부 비교에서 Qwen2.5-14B-Instruct에 대해 일반화 테스트를 수행하고 Llama-3.1-8B-Instruct에 대한 실험을 구현합니다.
실험 결과
연구 질문
- RQ1RQ1: 일반 지식, 지시 수행, 에이전트 워크로드에서 유용성과 보안 측면에서 ReasAlign의 성능은 어떠한가?
- RQ2RQ2: 추론의 도입이 이전 가드레일과 비교해 프롬프트 인젝션 공격에 대한 방어를 개선하는가?
- RQ3RQ3: 신경망의 신뢰성과 방어를 위한 테스트 시 스케일링(노드 기반 추론 선택)의 효과는 어떠한가?
- RQ4RQ4: 추론 프로세스와 스케일링 메커니즘이 도입하는 계산적 오버헤드는 어느 정도인가?
주요 결과
- ReasAlign은 무방비 모델 대비 약간의 저하만으로 일반 지식 성능을 유지하고 대다수 벤치마크에서 SecAlign 및 Meta SecAlign을 능가합니다.
- 프롬프트 인젝션 공격 하에서 ReasAlign은 더 높은 유용성과 공격 성공률이 크게 낮은 ASR을 달성하며, 예를 들어 CyberSecEval2의 ASR은 절감되어 3.6%로 떨어지고 ablation에서는 21.8%에서 감소하였고 Meta SecAlign은 74.4%였습니다.
- 지시 수행 벤치마크에서 ReasAlign은 CyberSecEval2에서 ASR을 3.6%로, SEP에서 1.1%로 낮추고 공격 하에서 Meta SecAlign 대비 유용성 이점이 두드러집니다.
- 에이전트 워크플로에서 ReasAlign은 AgentDojo에서 최상의 유용성을 달성하고 특정 설정에서 ASR을 0으로 낮출 수 있으며, Qwen2.5-14B-Instruct에서 교차 모델 일반화로 강한 방어를 보입니다.
- 주석 제거 실험은 추론이 보안 이익에 크게 기여함을 보이며, 직접 답변 트레이닝은 추론 가능 트레이닝보다 ASR이 더 낮아 CySE에서 21.8%에서 3.6%로 감소하고 SEP에서도 상당한 감소를 보였습니다.
- 노드 규모에 따른 절단은 N을 1에서 3으로 증가시킬 때 유용성과 공격 하의 ASR 감소가 나타났으며 N=3 초과에서는 수익이 감소합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.