[論文レビュー] Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement
要約: 本論文は、LLMの活性化における目標とフレーミングを自己教師付きで分離する枠組みを提案し、GoalFrameBench を構築して目標–フレーミングのベンチマークを作成し、フレーミング表現に基づくモデル非依存の jailbreak 検出法 FrameShield を提示する。
Large language models (LLMs) remain vulnerable to jailbreak prompts that are fluent and semantically coherent, and therefore difficult to detect with standard heuristics. A particularly challenging failure mode occurs when an attacker tries to hide the malicious goal of their request by manipulating its framing to induce compliance. Because these attacks maintain malicious intent through a flexible presentation, defenses that rely on structural artifacts or goal-specific signatures can fail. Motivated by this, we introduce a self-supervised framework for disentangling semantic factor pairs in LLM activations at inference. We instantiate the framework for goal and framing and construct GoalFrameBench, a corpus of prompts with controlled goal and framing variations, which we use to train Representation Disentanglement on Activations (ReDAct) module to extract disentangled representations in a frozen LLM. We then propose FrameShield, an anomaly detector operating on the framing representations, which improves model-agnostic detection across multiple LLM families with minimal computational overhead. Theoretical guarantees for ReDAct and extensive empirical validations show that its disentanglement effectively powers FrameShield. Finally, we use disentanglement as an interpretability probe, revealing distinct profiles for goal and framing signals and positioning semantic disentanglement as a building block for both LLM safety and mechanistic interpretability.
研究の動機と目的
- GPF 攻撃の機序を、目標とフレーミングの組成として形式化する。
- 理論的保証を伴う自己教師付き表現分離フレームワークを開発する。
- GoalFrameBench を作成し、目標–フレーミングの変動を研究するデータセットとベンチマークを提供する。
- 既存の防衛を超える実践的検出パイプライン(ReDAct + FrameShield)を実装する。
- 目標とフレーミング信号が LLM 層全体にどのように分布するかの解釈可能性の洞察を提供する。)
提案手法
- プロンプティを潜在的な目標とフレーミング要因の結合結果としてモデル化するフレーミング理論を正式に用いる。
- 対比学習、制御漏洩の正交性、再構成を組み合わせた一般的な自己教師付き分離目的を提案する。
- 安全データセットから対比的な目標–フレーミング対を用いて GoalFrameBench を構築する。
- ReDAct を実装し、凍結済みの LLM 活性化を分離された目標とフレーミング表現へ写像する。
- FrameShield を用いてフレーミング表現の異常検知を行い、GPF ジailbreak 試みを検出する。

実験結果
リサーチクエスチョン
- RQ1自己教師付きで LLM 活性化の意味的要因を分離することは可能か。
- RQ2目標とフレーミングを分離して、目標-preserving フレーミング(GPF)攻撃の堅牢な検出を可能にできるか。
- RQ3分離が複数の LLM 系列にわたる jailbreak プロンプト検出をモデル非依存で改善するか。
- RQ4目標とフレーミング信号は LLM のどの層に集中し、解釈可能性には何を示すか。
- RQ5フレーミング表現は、モデル微調整なしで効率的かつ一般化可能な jailbreak 検出を支えるか。
主な発見
- 自己教師付き目的が十分性・制御漏洩・再構成を課すことで、目標とフレーミングの分離が達成可能である。
- GoalFrameBench は ReDAct の効果的な訓練を可能にする対比的な目標–フレーミング対を大量に提供する。
- FrameShield は複数の LLM 系における jailbreak 検出を改善し、ベースラインに比べて計算オーバーヘッドがごく僅かである。
- Critical layer 選択を含む FrameShield は JBShield に対していくつかのモデル系で高い精度向上を達成する。
- 分離は目標とフレーミング信号が異なる層に集中することを示し、機序的解釖可能性の洞察を提供する。
- FrameShield はモデル非依存の検出能力を示し、フレーミング分析を通じて未知の目標にも一般化可能である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。