Skip to main content
QUICK REVIEW

[论文解读] Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents

Doron Shavit|arXiv (Cornell University)|Feb 18, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

论文提出了 RLM-JB,一种使用递归语言模型进行程序化越狱检测的系统,通过对输入片段进行去混淆、分块、筛选和证据聚合,在 AutoDAN 风格攻击下对多后端实现了高召回率和高精确度。

ABSTRACT

Jailbreak prompts are a practical and evolving threat to large language models (LLMs), particularly in agentic systems that execute tools over untrusted content. Many attacks exploit long-context hiding, semantic camouflage, and lightweight obfuscations that can evade single-pass guardrails. We present RLM-JB, an end-to-end jailbreak detection framework built on Recursive Language Models (RLMs), in which a root model orchestrates a bounded analysis program that transforms the input, queries worker models over covered segments, and aggregates evidence into an auditable decision. RLM-JB treats detection as a procedure rather than a one-shot classification: it normalizes and de-obfuscates suspicious inputs, chunks text to reduce context dilution and guarantee coverage, performs parallel chunk screening, and composes cross-chunk signals to recover split-payload attacks. On AutoDAN-style adversarial inputs, RLM-JB achieves high detection effectiveness across three LLM backends (ASR/Recall 92.5-98.0%) while maintaining very high precision (98.99-100%) and low false positive rates (0.0-2.0%), highlighting a practical sensitivity-specificity trade-off as the screening backend changes.

研究动机与目标

  • 将越狱检测框架化为有界且可审计的过程,而非一次性分类器。
  • 开发基于 RLM 的流水线(去混淆、覆盖率强制的分块、并行每段筛查、跨分块聚合)。
  • 在多种筛查后端与攻击面(AutoDAN 风格与 InjectPrompt)下评估鲁棒性和可用性。
  • 提供与部署相关的指标(ASR/Recall、FPR、Precision、F1),并讨论取舍。
  • 提供关于程序化分析如何提升对长上下文隐藏和分块载荷攻击的抗性见解

提出的方法

  • 在 RLM-JB 中,由一个根 LM 协调代码执行和工作端调用以分析输入片段。
  • 对可疑输入进行规范化与去混淆(如 Base64)。
  • 将输入分块为重叠的分段以确保覆盖并降低上下文稀释。
  • 对每个分块进行并行工作端 LLM 筛查,返回分段判定与信号。
  • 保守地聚合分段级证据以产生带有解释和支持信号的全局判决。
  • 报告跨后端的指标,包括 Recall、FPR、Precision、F1,并与基线进行对比(ASR/Recall、FPR、Precision、F1)。

实验结果

研究问题

  • RQ1递归、程序化检测器在不同 LLM 后端之间识别越狱载荷的有效性如何?
  • RQ2与单次筛查相比,分块与跨分段聚合是否改善对长上下文隐藏与分载荷攻击的检测?
  • RQ3在改变筛查后端模型时,召回率与假阳性率之间的权衡如何?
  • RQ4RLM-JB 流水线能否推广到更新的提示注入技术和表观形式变体?
  • RQ5程序化方法相对于筛查模型对整体性能的相对贡献是什么?

主要发现

  • RLM-JB 在各后端实现了高召回率(92.5–98.0%)与极高的精确度(98.99–100%)。
  • FPR 随着后端更强而上升,从 0.0%(DeepSeek-V3.2)到 0.5%(GPT-4o)再到 2.0%(GPT-5.2)。
  • 不使用 RLM-JB 的基线 GPT-5.2 的 ASR 为 59.57%、FPR 1.67%、Precision 100%、F1 69.71%。
  • RLM-JB 以 GPT-5.2 将 ASR 提升至 98.00%,同时保持 Precision 98.99% 与 FPR 2.00%。
  • InjectPrompt 评估显示攻击检测率为 100%,无假阳性,表明对最新注入技术具有鲁棒性。
  • 与其他防御相比,RLM-JB 在 AutoDAN 风格设置中在 F1 和鲁棒性方面有显著提升;但也承认存在潜在的时延成本作为权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。