QUICK REVIEW

[论文解读] TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering

Scott Thornton|arXiv (Cornell University)|Jan 6, 2026

Adversarial Robustness in Machine Learning被引用 0

一句话总结

TRYLOCK 实现了四层纵深防御架构，结合权重安全、激活引导、输入分类与输入规范化，以抑制越狱攻击，在 Mistral-7B-Instruct 上实现攻击成功率下降 88.0%。

ABSTRACT

Large language models remain vulnerable to jailbreak attacks, and single-layer defenses often trade security for usability. We present TRYLOCK, the first defense-in-depth architecture that combines four heterogeneous mechanisms across the inference stack: weight-level safety alignment via DPO, activation-level control via Representation Engineering (RepE) steering, adaptive steering strength selected by a lightweight sidecar classifier, and input canonicalization to neutralize encoding-based bypasses. On Mistral-7B-Instruct evaluated against a 249-prompt attack set spanning five attack families, TRYLOCK achieves 88.0% relative ASR reduction (46.5% to 5.6%), with each layer contributing unique coverage: RepE blocks 36% of attacks that bypass DPO alone, while canonicalization catches 14% of encoding attacks that evade both. We discover a non-monotonic steering phenomenon -- intermediate strength (alpha=1.0) degrades safety below baseline -- and provide mechanistic hypotheses explaining RepE-DPO interference. The adaptive sidecar reduces over-refusal from 60% to 48% while maintaining identical attack defense, demonstrating that security and usability need not be mutually exclusive. We release all components -- trained adapters, steering vectors, sidecar classifier, preference pairs, and complete evaluation methodology -- enabling full reproducibility.

研究动机与目标

通过纵深防御而非单一防御，推动强健的 LLM 安全性。
在推理栈中整合四种异质机制，阻断多种越狱向量。
量化各层提供的互补且非冗余的保护效果。
展示自适应引导以在安全性与可用性之间取得平衡。
提供完整的开源发布材料以实现分层安全研究的可重复性。

提出的方法

将四种异质机制整合为统一的防御栈：基于 DPO 的权重安全、RepE 激活空间引导、侧车威胁分类器与输入规范化。
通过直接偏好优化（DPO）训练 LoRA 适配器，使安全回复相对于不安全回复更受偏好。
在推理时计算并应用来自对比安全/不安全提示的激活空间引导向量（RepE）。
使用轻量级侧车分类器分配威胁等级并为每个输入选择引导强度（alpha）。
应用输入规范化以中和基于编码的绕过并提升鲁棒性。
发布所有组件与评估数据，以实现完整的可重复性。

实验结果

研究问题

RQ1多层防御是否能超越单层防御，在防止 LLM 越狱方面表现更好？
RQ2权重层、激活层和输入层的防御如何相互作用，它们是否具有互补性？
RQ3自适应引导对安全性与可用性有何影响？
RQ4公开发布数据集与适配器是否能够实现分层 LLM 安全研究的可重复性？

主要发现

TRYLOCK 在 Mistral-7B-Instruct-v0.3 上实现了相对攻击成功率下降 88.0%（基线 46.5% 降至 5.6%）的效果。
RepE 对绕过仅使用 DPO 的攻击提供了 36% 的独特覆盖。
规范化能够捕捉到 14% 的编码攻击，这些攻击既绕过了 RepE 又绕过了 DPO。
中间强度的引导（alpha = 1.0）导致安全性低于基线，揭示了非单调的引导动力学。
自适应侧车分类将过度拒绝率从 60% 降低到 48%，同时保持相同的攻击防护（8.0% ASR）。
作者发布了所有组件和评估方法以实现可重复性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。