[论文解读] The Echo Chamber Multi-Turn LLM Jailbreak
本文提出 Echo Chamber,一种新的多轮越狱策略,使用逐步提示来利用 LLM 的一致性偏差,展示了跨多模型的自动化与人工攻击,并证明其效果优于先前的基线。
The availability of Large Language Models (LLMs) has led to a new generation of powerful chatbots that can be developed at relatively low cost. As companies deploy these tools, security challenges need to be addressed to prevent financial loss and reputational damage. A key security challenge is jailbreaking, the malicious manipulation of prompts and inputs to bypass a chatbot's safety guardrails. Multi-turn attacks are a relatively new form of jailbreaking involving a carefully crafted chain of interactions with a chatbot. We introduce Echo Chamber, a new multi-turn attack using a gradual escalation method. We describe this attack in detail, compare it to other multi-turn attacks, and demonstrate its performance against multiple state-of-the-art models through extensive evaluation.
研究动机与目标
- 通过解决已部署聊天机器人中对越狱带来的安全风险来推动研究。
- 提出一种新的多轮越狱方法,称为 Echo Chamber,该方法逐步污染对话上下文。
- 在若干模型和类别上进行人工评估 Echo Chamber。
- 使用两阶段大语言模型管道实现 Echo Chamber 的自动化,以生成并评估攻击。
- 将 Echo Chamber 与现有的多轮攻击进行比较并讨论缓解措施。
提出的方法
- 提出一个逐步升级的攻击,先以有害种子开始并通过回声内容放大有害上下文。
- 描述一个五步过程(有害种子、引导种子、调用有害内容、路径选择、说服循环)并展示其如何引导攻击。
- 通过一个 LLM 生成提示,另一个评估成功,使用主评估和次评估以提高可靠性来自动化攻击。
- 在五个模型上进行人工评估(DeepSeek R1、Qwen3 32B、Gemini 2.5 Pro、GPT-4.1、Grok 4),覆盖三个任务类别。
- 对多个目标模型(GPT-4.1 mini、GPT-4.1、GPT-5 nano、GPT-5 mini、Gemini 2.0/2.5 Pro)及基线 Crescendo 和 DAN 进行自动化实验。
- 基于 AdvBench 协议提供评估指标和任务分组。

实验结果
研究问题
- RQ1Echo Chamber 在多轮设置下对现代对齐 LLM 的越狱效果有多大?
- RQ2Echo Chamber 相对于 Crescendo 以及单轮方法在模型族与任务类别上的表现如何?
- RQ3在使用基于 LLM 的攻击生成与评估时,自动化 Echo Chamber 的实际能力与限制是什么?
- RQ4哪些缓解措施能够降低 Echo Chamber 及相关多轮越狱的有效性?
主要发现
- Echo Chamber 在 12 个任务上的总体攻击成功率为 45.0%,高于 Crescendo 的 28.6% 与 DAN 的 9.5%。
- 在模型逐步结果中,Echo Chamber 在 Gemini 2.5 Flash(72.7% 对 33.3% 对 25.0%)、GPT-4.1 mini(54.5% 对 25.0% 对 0.0%)和 Gemini 2.0 Flash(58.3% 对 50.0% 对 25.0%)等模型上超过基线。
- Echo Chamber 在 Violence、Terrorism、& Harmful Behaviors(55.0% 对 Crescendo 19.0% 对 DAN 0.0%)以及 Hacking & Cyberattacks(50.0% 对 Crescendo 28.6% 对 DAN 9.5%)方面占据主导。
- 在 Fraud(50.0% 对 Crescendo 66.7%)方面 Echo Chamber 略显落后,但在 Misformation(25.0% 对 Crescendo 0.0%)上表现出非零结果。
- DAN(单轮基线)在现代模型上表现较差(GPT-4.1/ mini 为 0%),在一些 Gemini 变体上也有限的成功,凸显多轮策略的优势。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。