Skip to main content
QUICK REVIEW

[论文解读] ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification

Xiao Lin, Philip Li|arXiv (Cornell University)|Jan 7, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

一种与模型无关的零样本越狱检测器,称为 ALERT,通过放大层级、模块和标记级的安全信号来检测未见越狱提示,在多项基准和大语言模型上实现顶级零样本性能。

ABSTRACT

Despite rich safety alignment strategies, large language models (LLMs) remain highly susceptible to jailbreak attacks, which compromise safety guardrails and pose serious security risks. Existing detection methods mainly detect jailbreak status relying on jailbreak templates present in the training data. However, few studies address the more realistic and challenging zero-shot jailbreak detection setting, where no jailbreak templates are available during training. This setting better reflects real-world scenarios where new attacks continually emerge and evolve. To address this challenge, we propose a layer-wise, module-wise, and token-wise amplification framework that progressively magnifies internal feature discrepancies between benign and jailbreak prompts. We uncover safety-relevant layers, identify specific modules that inherently encode zero-shot discriminative signals, and localize informative safety tokens. Building upon these insights, we introduce ALERT (Amplification-based Jailbreak Detector), an efficient and effective zero-shot jailbreak detector that introduces two independent yet complementary classifiers on amplified representations. Extensive experiments on three safety benchmarks demonstrate that ALERT achieves consistently strong zero-shot detection performance. Specifically, (i) across all datasets and attack strategies, ALERT reliably ranks among the top two methods, and (ii) it outperforms the second-best baseline by at least 10% in average Accuracy and F1-score, and sometimes by up to 40%.

研究动机与目标

  • 为零样本越狱检测任务提供动机与形式化表达,以反映现实攻击演化。
  • 识别实际应用安全设置中的检测器需要的通用性、效率和无意识性等实用原则。
  • 开发一个层级、模块级和标记级的放大框架,以揭示内部的安全信号。
  • 提供一个模型无关的检测器(ALERT),将放大表示与轻量级分类器相结合。

提出的方法

  • 通过对 benign、harmful 与 jailbreak 提示的层级分布进行对称 KL 距离分析,识别安全敏感的层。
  • 在识别出的层内,通过对门控特征与上下文特征使用变分信息瓶颈(VIB)骨干,构建两个分类器实现模块级放大。
  • 引入标记级放大,通过对来自 benign 与 harmful 提示的原型向量对标记特征进行加权,以降低越狱模板中的噪声标记影响。
  • 将门控分类器和上下文分类器的输出进行平均融合以得到稳健预测,然后在分类前对提示表示进行标记级加权以 refinement。
  • 确保在单次前向传递中完成检测,使用轻量级检测器以满足效率性与无意识性标准。

实验结果

研究问题

  • RQ1零样本越狱检测在没有训练越狱模板的情况下,能否可靠识别未见越狱提示?
  • RQ2在内部表示中,哪些层、模块、标记包含最强的零样本安全信号?
  • RQ3跨层、跨模块和跨标记的放大机制是否提升零样本越狱检测性能?
  • RQ4是否可以在保持良性提示质量的前提下,使用轻量级且模型无关的检测器实现有效检测?

主要发现

  • Alert 在所有评估的数据集与攻击场景中的零样本设定下,始终处于前两名之列。
  • 在所有大语言模型中,Alert 的平均准确率和 F1-score 超过 90%。
  • Alert 的平均准确率和 F1-score 比第二名基线至少高出 10%,在某些情况下高出多达 40%。
  • 三重放大阶段(层级、模块级、标记级)共同提升检测性能,其中模块级放大带来最大增益。
  • 标记级放大降低了来自嘈杂越狱标记的干扰,提升了零样本检测的判别能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。