[论文解读] TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering
TRYLOCK 实现了四层纵深防御架构,结合权重安全、激活引导、输入分类与输入规范化,以抑制越狱攻击,在 Mistral-7B-Instruct 上实现攻击成功率下降 88.0%。
Large language models remain vulnerable to jailbreak attacks, and single-layer defenses often trade security for usability. We present TRYLOCK, the first defense-in-depth architecture that combines four heterogeneous mechanisms across the inference stack: weight-level safety alignment via DPO, activation-level control via Representation Engineering (RepE) steering, adaptive steering strength selected by a lightweight sidecar classifier, and input canonicalization to neutralize encoding-based bypasses. On Mistral-7B-Instruct evaluated against a 249-prompt attack set spanning five attack families, TRYLOCK achieves 88.0% relative ASR reduction (46.5% to 5.6%), with each layer contributing unique coverage: RepE blocks 36% of attacks that bypass DPO alone, while canonicalization catches 14% of encoding attacks that evade both. We discover a non-monotonic steering phenomenon -- intermediate strength (alpha=1.0) degrades safety below baseline -- and provide mechanistic hypotheses explaining RepE-DPO interference. The adaptive sidecar reduces over-refusal from 60% to 48% while maintaining identical attack defense, demonstrating that security and usability need not be mutually exclusive. We release all components -- trained adapters, steering vectors, sidecar classifier, preference pairs, and complete evaluation methodology -- enabling full reproducibility.
研究动机与目标
- 通过纵深防御而非单一防御,推动强健的 LLM 安全性。
- 在推理栈中整合四种异质机制,阻断多种越狱向量。
- 量化各层提供的互补且非冗余的保护效果。
- 展示自适应引导以在安全性与可用性之间取得平衡。
- 提供完整的开源发布材料以实现分层安全研究的可重复性。
提出的方法
- 将四种异质机制整合为统一的防御栈:基于 DPO 的权重安全、RepE 激活空间引导、侧车威胁分类器与输入规范化。
- 通过直接偏好优化(DPO)训练 LoRA 适配器,使安全回复相对于不安全回复更受偏好。
- 在推理时计算并应用来自对比安全/不安全提示的激活空间引导向量(RepE)。
- 使用轻量级侧车分类器分配威胁等级并为每个输入选择引导强度(alpha)。
- 应用输入规范化以中和基于编码的绕过并提升鲁棒性。
- 发布所有组件与评估数据,以实现完整的可重复性。
实验结果
研究问题
- RQ1多层防御是否能超越单层防御,在防止 LLM 越狱方面表现更好?
- RQ2权重层、激活层和输入层的防御如何相互作用,它们是否具有互补性?
- RQ3自适应引导对安全性与可用性有何影响?
- RQ4公开发布数据集与适配器是否能够实现分层 LLM 安全研究的可重复性?
主要发现
- TRYLOCK 在 Mistral-7B-Instruct-v0.3 上实现了相对攻击成功率下降 88.0%(基线 46.5% 降至 5.6%)的效果。
- RepE 对绕过仅使用 DPO 的攻击提供了 36% 的独特覆盖。
- 规范化能够捕捉到 14% 的编码攻击,这些攻击既绕过了 RepE 又绕过了 DPO。
- 中间强度的引导(alpha = 1.0)导致安全性低于基线,揭示了非单调的引导动力学。
- 自适应侧车分类将过度拒绝率从 60% 降低到 48%,同时保持相同的攻击防护(8.0% ASR)。
- 作者发布了所有组件和评估方法以实现可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。