[論文レビュー] ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack
ReasAlign は構造化推論とテスト時ジャッジを用いて間接的なプロンプト挿入攻撃を検出・緩和し、未 defended モデルに近い有用性を維持しつつセキュリティを向上させる。CyberSecEval2 を含む複数のベンチマークで Meta SecAlign を上回る。
Large Language Models (LLMs) have enabled the development of powerful agentic systems capable of automating complex workflows across various fields. However, these systems are highly vulnerable to indirect prompt injection attacks, where malicious instructions embedded in external data can hijack agent behavior. In this work, we present ReasAlign, a model-level solution to improve safety alignment against indirect prompt injection attacks. The core idea of ReasAlign is to incorporate structured reasoning steps to analyze user queries, detect conflicting instructions, and preserve the continuity of the user's intended tasks to defend against indirect injection attacks. To further ensure reasoning logic and accuracy, we introduce a test-time scaling mechanism with a preference-optimized judge model that scores reasoning steps and selects the best trajectory. Comprehensive evaluations across various benchmarks show that ReasAlign maintains utility comparable to an undefended model while consistently outperforming Meta SecAlign, the strongest prior guardrail. On the representative open-ended CyberSecEval2 benchmark, which includes multiple prompt-injected tasks, ReasAlign achieves 94.6% utility and only 3.6% ASR, far surpassing the state-of-the-art defensive model of Meta SecAlign (56.4% utility and 74.4% ASR). These results demonstrate that ReasAlign achieves the best trade-off between security and utility, establishing a robust and practical defense against prompt injection attacks in real-world agentic systems. Our code and experimental results could be found at https://github.com/leolee99/ReasAlign.
研究の動機と目的
- LLM ベースのエージェントの安全な運用を動機づけ、間接的なプロンプト挿入攻撃から防御する。
- 注入されたコンテンツとは別に、ユーザ意図と外部データを分析する推論ベースの内部ガードレールを開発する。
- 構造化推論とジャッジベースのテスト時スケーリングを活用して最適な推論経路を選択する。
- 従来のガードレールと比較して攻撃成功率(ASR)を大幅に低下させつつ、タスク有用性を高く維持する。
- 一般知識、指示遵守、エージェント的ワークフローのベンチマークで堅牢性を示す。
提案手法
- SQuADv2、TaskTracker、BeaverTails からの挿入サンプルを合成して挿入防御の構造化推論データセットを構築する。
- 挿入命令を明示的にハイライトする三段階の推論プロセス(問題分析、推論、最終回答生成)を用いる。
- 推論データセット上で安全性配置のため低ランク適応(LoRA)を用いた命令チューニングを適用する。
- テスト時スケーリング(ビーム探索+ロジックジャッジ)を導入して、Direct Preference Optimization(DPO)を用いてジャッジを訓練し最良の推論経路を得点・選択する。
- 未 defended のベースラインと従来のガードレールと比較して、有用性と ASR を評価する。
- Llama-3.1-8B-Instruct および一部比較では Qwen2.5-14B-Instruct を用いて一般化を検証する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 一般知識、指示遵守、エージェント的タスクにおいて ReasAlign は有用性とセキュリティの点でどのように性能を発揮するか?
- RQ2RQ2: 推論を組み込むことで、従来のガードレールと比較してプロンプト挿入攻撃への防御が改善されるか?
- RQ3RQ3: ノードベースの推論選択によるテスト時スケーリングの信頼性と防御効果はどの程度か?
- RQ4RQ4: 推論プロセスとスケーリング機構による計算オーバーヘッドはどの程度か?
主な発見
- ReasAlign は、未 defended モデルに対するわずかな劣化のみで強力な一般知識性能を維持し、多くのベンチマークで SecAlign および Meta SecAlign を上回る。
- プロンプト挿入攻撃下で、ReasAlign は高い有用性を維持し ASR を大幅に低減(例:CyberSecEval2 の ASR が 21.8% から 3.6% に低下、アブレーションでは Meta SecAlign は 74.4%)を示す。
- 指示遵守ベンチマークでは、ReasAlign は CyberSecEval2 で ASR を 3.6%、SEP で 1.1% に低下させ、攻撃時に Meta SecAlign より有用性の優位性を示す。
- エージェント的ワークフローでは、ReasAlign は AgentDojo で最高の有用性を達成し、特定の設定では ASR をゼロに抑えることができ、Qwen2.5-14B-Instruct でのモデル間一般化も強力な防御を示す。
- アブレーションにより推論がセキュリティ向上に著しく寄与することが示され、直接回答訓練は推論可能訓練より ASR が高く(CySE の ASR が 21.8% から 3.6% に低下、SEP でも顕著な低下)なる。
- ノード規模のアブレーションは N を 1 から 3 に増やすと有用性が向上し、攻撃下で ASR が低下する一方、N=3 を超えると収益が逓減することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。