QUICK REVIEW

[논문 리뷰] The Echo Chamber Multi-Turn LLM Jailbreak

Alobaid, Ahmad, Martí Jordà Roca|arXiv (Cornell University)|2026. 01. 09.

Spam and Phishing Detection인용 수 0

한 줄 요약

이 논문은 Echo Chamber라는 새로운 다회전 jailbreaking 전략을 소개합니다. 점진적 프롬프트를 사용해 LLM의 일관성 편향을 악용하고, 여러 모델에서 자동적 및 수동적 공격을 시연하며, 기존 기준선보다 우수함을 보입니다.

ABSTRACT

The availability of Large Language Models (LLMs) has led to a new generation of powerful chatbots that can be developed at relatively low cost. As companies deploy these tools, security challenges need to be addressed to prevent financial loss and reputational damage. A key security challenge is jailbreaking, the malicious manipulation of prompts and inputs to bypass a chatbot's safety guardrails. Multi-turn attacks are a relatively new form of jailbreaking involving a carefully crafted chain of interactions with a chatbot. We introduce Echo Chamber, a new multi-turn attack using a gradual escalation method. We describe this attack in detail, compare it to other multi-turn attacks, and demonstrate its performance against multiple state-of-the-art models through extensive evaluation.

연구 동기 및 목표

배포된 채팅봇에서의 LLM jailbreaking으로 인한 보안 위험을 다루며 연구의 동기를 제공합니다.
대화 맥락을 점진적으로 오염시키는 Echo Chamber라는 새로운 다회전 jailbreaking 방법을 제안합니다.
여러 모델과 카테고리에 걸쳐 Echo Chamber를 수작업으로 평가합니다.
Attack를 생성하고 판단하기 위해 두 LLM 파이프라인을 사용한 Echo Chamber 자동화를 구현합니다.
Echo Chamber를 기존의 다회전 공격과 비교하고 완화책을 논의합니다.]
methodListRoadmap

제안 방법

독성 시드를 시작으로 점진적 에스컬레이션 공격을 도입하고, 에코링(content echoing)을 사용해 해로운 맥락을 증폭합니다.
다섯 단계 프로세스(Poisonous Seeds, Steering Seeds, Invoking Poisonous Content, Path Selection, Persuasion Cycle)를 설명하고 이것이 공격으로 어떻게 이어지는지 보여줍니다.
일 하나의 LLM으로 프롬 prompts를 생성하고 다른 하나로 성공 여부를 판단하게 하여 신뢰성을 높이는 1차 심판과 2차 심판을 사용해 공격을 자동화합니다.
다섯 가지 모델(DeepSeek R1, Qwen3 32B, Gemini 2.5 Pro, GPT-4.1, Grok 4)에서 세 가지 작업 범주에 대해 수작업으로 평가합니다.
여러 대상 모델(GPT-4.1 mini, GPT-4.1, GPT-5 nano, GPT-5 mini, Gemini 2.0/2.5 Pro) 및 기준선 Crescendo와 DAN에 대해 자동화된 실험을 실행합니다.
AdvBench 프로토콜에 따른 평가 지표 및 작업 그룹화를 제공합니다.

Figure 3: Screenshot of an LLM answer to an Echo Chamber attack. The answer includes detailed instructions to prepare a Molotov cocktail from scavenged sources (redacted).

실험 결과

연구 질문

RQ1다중 회전 설정에서 Echo Chamber 접근법이 현대 정렬된 LLM의 jailbreaking에 얼마나 효과적인가?
RQ2Echo Chamber가 모델 패밀리와 작업 범주 전반에서 Crescendo 및 단회전 접근법 대비 어떤 성능을 보이는가?
RQ3LLM 기반 공격 생성 및 판단을 사용하는 자동화된 Echo Chamber 공격의 실질적 능력과 한계는 무엇인가?
RQ4Echo Chamber 및 관련 다회전 jailbreaking의 효능을 감소시킬 수 있는 완화책은 무엇인가?

주요 결과

Echo Chamber은 12개 작업에서 총 공격 성공률 45.0%를 달성하여 Crescendo(28.6%) 및 DAN(9.5%)를 능가했습니다.
모델별 결과에서 Echo Chamber은 Gemini 2.5 Flash에서 72.7% 대 33.3% 대 25.0%, GPT-4.1 mini에서 54.5% 대 25.0% 대 0.0%, Gemini 2.0 Flash에서 58.3% 대 50.0% 대 25.0%의 높은 성공률을 보였습니다.
Echo Chamber은 Violence, Terrorism, & Harmful Behaviors에서 지배적으로 55.0% 대 Crescendo 19.0% 대 DAN 0.0%와 Hacking & Cyberattacks에서 50.0% 대 Crescendo 28.6% 대 DAN 9.5%를 기록했습니다.
Fraud에서 Echo Chamber은 Crescendo보다 뒤처져 50.0% 대 66.7%였지만, Misinformation에서 25.0% 대 0.0% Crescendo의 비제로 결과를 보여주었습니다.
DAN은 단일 회전 기준선으로서 현대 모델에서 성능이 저조했고(GPT-4.1/mini에서 0%), 일부 Gemini 변종에서 제한된 성공을 보였으며 다회전 전략의 이점을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.