QUICK REVIEW

[논문 리뷰] Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents

Doron Shavit|arXiv (Cornell University)|2026. 02. 18.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

본 논문은 RLM-JB를 제시한다. 이는 재귀적 언어 모델을 이용해 입력 세그먼트를 해독, 분할, 검사하고 증거를 집계하는 절차적 탈옥(detector)으로, 다수 백엔드에서 AutoDAN 스타일 공격에 대해 높은 재현율과 정밀도를 달성한다.

ABSTRACT

Jailbreak prompts are a practical and evolving threat to large language models (LLMs), particularly in agentic systems that execute tools over untrusted content. Many attacks exploit long-context hiding, semantic camouflage, and lightweight obfuscations that can evade single-pass guardrails. We present RLM-JB, an end-to-end jailbreak detection framework built on Recursive Language Models (RLMs), in which a root model orchestrates a bounded analysis program that transforms the input, queries worker models over covered segments, and aggregates evidence into an auditable decision. RLM-JB treats detection as a procedure rather than a one-shot classification: it normalizes and de-obfuscates suspicious inputs, chunks text to reduce context dilution and guarantee coverage, performs parallel chunk screening, and composes cross-chunk signals to recover split-payload attacks. On AutoDAN-style adversarial inputs, RLM-JB achieves high detection effectiveness across three LLM backends (ASR/Recall 92.5-98.0%) while maintaining very high precision (98.99-100%) and low false positive rates (0.0-2.0%), highlighting a practical sensitivity-specificity trade-off as the screening backend changes.

연구 동기 및 목표

프레임워크 탈옥 탐지 를 한정 가능하고 감사 가능한 절차로 간주하여 수행합니다.
RLM 기반 파이프라인(해독/비의미화 제거, 커버리지 강화 분할, 각 세그먼트의 병렬 검사, 그리고 세그먼트 간 교차 집계) 개발.
여러 screening 백엔드와 공격 표면(AutoDAN 스타일 및 InjectPrompt)에 걸친 강건성 및 사용성 평가.
배포 관련 메트릭(A SR/Recall, FPR, Precision, F1) 제공 및 트레이드오프 논의.
장기 맥락 은닉과 분할 페이로드 공격에 대한 강인성을 향상시키는 절차적 분석의 통찰 제공

제안 방법

루트 LM이 입력 세그먼트를 분석하기 위해 코드 실행과 워커 호출을 조정하는 RLM-JB를 도입합니다.
의심스러운 입력을 정규화하고 해독합니다(예: Base64).
겹치는 세그먼트로 입력을 분할하여 커버리지를 보장하고 맥락 희석을 줄입니다.
각 세그먼트를 병렬 워커 LLM으로 검사하고 세그먼트 판정 및 신호를 반환합니다.
세그먼트 수준의 증거를 보수적으로 집계하여 설명과 지원 신호를 포함하는 글로벌 판정을 산출합니다.
백엔드 간 재현율(Recall), FPR, Precision, F1을 포함한 메트릭을 보고하고 기준선과 비교합니다.

실험 결과

연구 질문

RQ1다양한 LLM 백엔드에서 재귀적이고 절차적인 탐지기가 탈옥 페이로드를 식별하는 효과는 어느 정도인가?
RQ2단일 패스 검사와 비교할 때 겹치는 분할 및 세그먼트 간 교차 집계가 장기 맥락 은닉과 분할 페이로드 공격의 탐지를 개선하는가?
RQ3다양한 검사 백엔드 모델에 따라 재현율과 거짓 양성률 간의 트레이드오프는 어떠한가?
RQ4RLM-JB 파이프라인이 새로운 프롬프트 주입 기법 및 표면 형식 변형에 일반화될 수 있는가?
RQ5전반적 성능에 대한 절차적 접근법과 검사 모델의 상대적 기여도는 어느 정도인가?

주요 결과

RLM-JB는 백엔드 전반에서 높은 재현율(92.5–98.0%)과 매우 높은 정밀도(98.99–100%)를 달성합니다.
FPR은 더 강한 백엔드일수록 상승하여 0.0% (DeepSeek-V3.2)에서 0.5% (GPT-4o), 2.0% (GPT-5.2)까지 증가합니다.
Baseline GPT-5.2 without RLM-JB는 ASR 59.57%, FPR 1.67%, Precision 100%, F1 69.71%를 산출합니다.
RLM-JB는 GPT-5.2와 함께 ASR을 98.00%로 끌어올리면서도 정밀도 98.99% 및 FPR 2.00%를 유지합니다.
InjectPrompt 평가에서 100% 공격 탐지와 0거짓양성으로 최신 주입 기법에 대한 강인성을 나타냅니다.
다른 방어 기법과 비교할 때 AutoDAN 스타일 환경에서 F1 및 견고성에서 상당한 이점을 제공하며; 지연 비용은 트레이드오프으로 인정됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.