Skip to main content
QUICK REVIEW

[论文解读] TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering

Scott Thornton|arXiv (Cornell University)|Jan 6, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

TRYLOCK 实现了四层纵深防御架构,结合权重安全、激活引导、输入分类与输入规范化,以抑制越狱攻击,在 Mistral-7B-Instruct 上实现攻击成功率下降 88.0%。

ABSTRACT

Large language models remain vulnerable to jailbreak attacks, and single-layer defenses often trade security for usability. We present TRYLOCK, the first defense-in-depth architecture that combines four heterogeneous mechanisms across the inference stack: weight-level safety alignment via DPO, activation-level control via Representation Engineering (RepE) steering, adaptive steering strength selected by a lightweight sidecar classifier, and input canonicalization to neutralize encoding-based bypasses. On Mistral-7B-Instruct evaluated against a 249-prompt attack set spanning five attack families, TRYLOCK achieves 88.0% relative ASR reduction (46.5% to 5.6%), with each layer contributing unique coverage: RepE blocks 36% of attacks that bypass DPO alone, while canonicalization catches 14% of encoding attacks that evade both. We discover a non-monotonic steering phenomenon -- intermediate strength (alpha=1.0) degrades safety below baseline -- and provide mechanistic hypotheses explaining RepE-DPO interference. The adaptive sidecar reduces over-refusal from 60% to 48% while maintaining identical attack defense, demonstrating that security and usability need not be mutually exclusive. We release all components -- trained adapters, steering vectors, sidecar classifier, preference pairs, and complete evaluation methodology -- enabling full reproducibility.

研究动机与目标

  • 通过纵深防御而非单一防御,推动强健的 LLM 安全性。
  • 在推理栈中整合四种异质机制,阻断多种越狱向量。
  • 量化各层提供的互补且非冗余的保护效果。
  • 展示自适应引导以在安全性与可用性之间取得平衡。
  • 提供完整的开源发布材料以实现分层安全研究的可重复性。

提出的方法

  • 将四种异质机制整合为统一的防御栈:基于 DPO 的权重安全、RepE 激活空间引导、侧车威胁分类器与输入规范化。
  • 通过直接偏好优化(DPO)训练 LoRA 适配器,使安全回复相对于不安全回复更受偏好。
  • 在推理时计算并应用来自对比安全/不安全提示的激活空间引导向量(RepE)。
  • 使用轻量级侧车分类器分配威胁等级并为每个输入选择引导强度(alpha)。
  • 应用输入规范化以中和基于编码的绕过并提升鲁棒性。
  • 发布所有组件与评估数据,以实现完整的可重复性。

实验结果

研究问题

  • RQ1多层防御是否能超越单层防御,在防止 LLM 越狱方面表现更好?
  • RQ2权重层、激活层和输入层的防御如何相互作用,它们是否具有互补性?
  • RQ3自适应引导对安全性与可用性有何影响?
  • RQ4公开发布数据集与适配器是否能够实现分层 LLM 安全研究的可重复性?

主要发现

  • TRYLOCK 在 Mistral-7B-Instruct-v0.3 上实现了相对攻击成功率下降 88.0%(基线 46.5% 降至 5.6%)的效果。
  • RepE 对绕过仅使用 DPO 的攻击提供了 36% 的独特覆盖。
  • 规范化能够捕捉到 14% 的编码攻击,这些攻击既绕过了 RepE 又绕过了 DPO。
  • 中间强度的引导(alpha = 1.0)导致安全性低于基线,揭示了非单调的引导动力学。
  • 自适应侧车分类将过度拒绝率从 60% 降低到 48%,同时保持相同的攻击防护(8.0% ASR)。
  • 作者发布了所有组件和评估方法以实现可重复性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。