QUICK REVIEW

[論文レビュー] The Echo Chamber Multi-Turn LLM Jailbreak

Alobaid, Ahmad, Martí Jordà Roca|arXiv (Cornell University)|Jan 9, 2026

Spam and Phishing Detection被引用数 0

ひとこと要約

論文は、逐次プロンプトを用いて大規模言語モデル（LLM）の一貫性バイアスを悪用する新しい多ターン・ jailbreak戦略である Echo Chamber を紹介し、複数のモデルで自動・手動の攻撃を実証し、従来のベースラインより優れていることを示します。

ABSTRACT

The availability of Large Language Models (LLMs) has led to a new generation of powerful chatbots that can be developed at relatively low cost. As companies deploy these tools, security challenges need to be addressed to prevent financial loss and reputational damage. A key security challenge is jailbreaking, the malicious manipulation of prompts and inputs to bypass a chatbot's safety guardrails. Multi-turn attacks are a relatively new form of jailbreaking involving a carefully crafted chain of interactions with a chatbot. We introduce Echo Chamber, a new multi-turn attack using a gradual escalation method. We describe this attack in detail, compare it to other multi-turn attacks, and demonstrate its performance against multiple state-of-the-art models through extensive evaluation.

研究の動機と目的

展望：展開チャットボットにおける jailbreaking から生じるセキュリティリスクに対処することで研究の動機を示す。
Echo Chamber と呼ぶ新しい多ターン jailbreaking 手法を提案し、会話文脈を徐々に汚染する。
複数モデル・カテゴリにわたり Echo Chamber を手動で評価する。
2LLMパイプラインを用いて Echo Chamber を自動化し、攻撃を生成・判断する。
Echo Chamber を既存の多ターン攻撃と比較し、緩和策を議論する。

提案手法

毒性の種と反響コンテンツを用いた徐々にエスカレートする攻撃を導入する。
五段階のプロセス（Poisonous Seeds、Steering Seeds、Invoking Poisonous Content、Path Selection、Persuasion Cycle）を説明し、攻撃への道筋を示す。
一つのLLMでプロンプトを生成し、別のLLMで成功を判断する自動化を行い、信頼性のため主判定・副判定を用いる。
五つのモデル（DeepSeek R1、Qwen3 32B、Gemini 2.5 Pro、GPT-4.1、Grok 4）で三つのタスクカテゴリーにわたり手動評価を行う。
複数のターゲットモデル（GPT-4.1 mini、GPT-4.1、GPT-5 nano、GPT-5 mini、Gemini 2.0/2.5 Pro）およびベースライン Crescendo および DAN に対して自動実験を実施する。
AdvBench プロトコルに基づく評価指標とタスクグルーピングを提供する。

Figure 3: Screenshot of an LLM answer to an Echo Chamber attack. The answer includes detailed instructions to prepare a Molotov cocktail from scavenged sources (redacted).

実験結果

リサーチクエスチョン

RQ1Echo Chamber アプローチは現代の整列済み LLM を多ターン設定で jailbreaking する際にどれほど効果的か。
RQ2Echo Chamber はモデルファミリとタスクカテゴリ全体で Crescendo および単一ターンのアプローチと比較してどうか。
RQ3LLM ベースの攻撃生成と判断を用いた自動化された Echo Chamber 攻撃の実用的な能力と限界は何か。
RQ4Echo Chamber および関連する多ターン jailbreaking の有効性を低減する緩和策は何か。

主な発見

Echo Chamber は 12 件のタスク全体で総合攻撃成功率 45.0% を達成し、Crescendo 28.6% および DAN 9.5% を上回った。
モデル別の結果では、Gemini 2.5 Flash で 72.7%（Echo Chamber）対 33.3%（Crescendo）対 25.0%（DAN）、GPT-4.1 mini で 54.5% 対 25.0% 対 0.0%、Gemini 2.0 Flash で 58.3% 対 50.0% 対 25.0% の順。
Echo Chamber は Violence, Terrorism, & Harmful Behaviors（55.0% 対 19.0% Crescendo 対 0.0% DAN）および Hacking & Cyberattacks（50.0% 対 28.6% Crescendo 対 9.5% DAN）を支配した。
Fraud の場合、Echo Chamber は Crescendo（50.0% 対 66.7%）に遅れをとったが、Misinformation では非ゼロの結果を示した（25.0% 対 0.0% Crescendo）。
DAN は単一ターンのベースラインで、現代モデル（GPT-4.1/mini）での性能は低く（0%）、一部の Gemini 変種で限られた成功を示したことから、多ターン戦略の利点が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。