QUICK REVIEW

[論文レビュー] State-Dependent Safety Failures in Multi-Turn Language Model Interaction

Pengcheng Li, Jie Zhang (64655)|arXiv (Cornell University)|Mar 15, 2026

Topic Modeling被引用数 0

ひとこと要約

STAR は、構造化された多ターン対話下で安全性の整合性が崩壊し得ることを示し、静的な単一ターンのテストで見落とされる状態依存的な安全境界を明らかにする。対話履歴を協調的なターンを通じて進化する状態として扱う。

ABSTRACT

Safety alignment in large language models is typically evaluated under isolated queries, yet real-world use is inherently multi-turn. Although multi-turn jailbreaks are empirically effective, the structure of conversational safety failure remains insufficiently understood. In this work, we study safety failures from a state-space perspective and show that many multi-turn failures arise from structured contextual state evolution rather than isolated prompt vulnerabilities. We introduce STAR, a state-oriented diagnostic framework that treats dialogue history as a state transition operator and enables controlled analysis of safety behavior along interaction trajectories. Rather than optimizing attack strength, STAR provides a principled probe of how aligned models traverse the safety boundary under autoregressive conditioning. Across multiple frontier language models, we find that systems that appear robust under static evaluation can undergo rapid and reproducible safety collapse under structured multi-turn interaction. Mechanistic analysis reveals monotonic drift away from refusal-related representations and abrupt phase transitions induced by role-conditioned context. Together, these findings motivate viewing language model safety as a dynamic, state-dependent process defined over conversational trajectories.

研究の動機と目的

会話の軌跡にわたる動的・状態依存的プロセスとしての安全性を動機づける。
対話履歴が拒否に影響を与える状態遷移演算子として機能する様子を調査する。
STAR を導入して状態初期化と状態進展を分離し、安全境界の跨ぎを診断する。
静的なロバスト性にもかかわらず、多ターン対話でフロンティアモデルが劣化することを示す。

提案手法

STAR（State-oriented Role-playing framework）を診断ツールとして導入し、対話ターン全体での安全性を分析する。
相互作用を二段階プロセスとしてモデル化する：状態初期化（ソフト化、役割生成、構造化ターン）と状態進展（役割条件付きターンと履歴介入）。
補助モデルを用いて役割文脈とフォローアップ問い合わせを生成し、ジャッジ（GPT-4o）に各ターンでの安全性をスコアリングさせる。
潜在状態 z_t と状態空間内の安全境界を用いて安全挙動を解釈し、軌道のダイナミクス J(q, r_t) を分析する。
適応的リトライと軌道制御を適用して、ターン間での軌道安定性を維持・検査する。
初期化、履歴蓄積、モーメンタム制御が安全結果に与える因果的寄与を特定するためのアブレーションを実施する。

実験結果

リサーチクエスチョン

RQ1静的な単一ターンプロンプトに対して安全性が堅牢であるかどうかは、制御された多ターン対話下でも保たれるか。
RQ2状態初期化と履歴ベースの状態進展が安全境界の跨ぎにどう寄与するか。
RQ3LLM における状態依存的安全失敗に伴う内部表現ダイナミクスは何か。
RQ4軌道指向の分析は、静的評価では見えない因果的・経路依存的要因を明らかにできるか。
RQ5STAR の下でのフロンティアモデルの安全性失敗は、データセットやモデルファミリ全体に一般化できるか。

主な発見

Evaluation Regime	GPT-4o SFR (%)	Claude 3.5 Sonnet SFR (%)	Gemini 2.0-Flash SFR (%)	LLaMA-3-8B-IT SFR (%)	LLaMA-3-70B-IT SFR (%)
Static Context Evaluation (Single-turn)	12.5	3.0	–	34.5	17.0
PAIR (Chao et al., 2025)	39.0	3.0	–	18.7	36.0
CodeAttack (Jha and Reddy, 2023)	70.5	39.5	–	46.0	66.0
Contextual Trajectory Evaluation (Multi-turn) – RACE (Ying et al., 2025)	82.8	–	–	–	–
Contextual Trajectory Evaluation (Multi-turn) – CoA (Yang et al., 2024b)	17.5	3.4	–	25.5	18.8
Contextual Trajectory Evaluation (Multi-turn) – Crescendo (Russinovich et al., 2024)	46.0	50.0	–	60.0	62.0
Contextual Trajectory Evaluation (Multi-turn) – ActorAttack (Ren et al., 2024)	84.5	66.5	42.1	79.0	85.0
Contextual Trajectory Evaluation (Multi-turn) – X-teaming (Rahman et al., 2025)	94.3	67.9	87.4	85.5	84.9
STAR (Ours)	94.5	74.0	96.1	89.0	85.5

静的な単一ターンの安全性は、検証されたフロンティアモデルのうち堅牢であるように見える。
STAR の多ターン軌道下で安全性の失敗率（SFR）が大幅に上昇（例：GPT-4o 94.5%、Gemini 2.0-Flash 96.1%）。
STAR は従来の多ターンのベースラインより高い SFR を達成し、HarmBench および JailbreakBench に跨る状態依存的な安全崩壊を示す。
初期化と履歴蓄積が安全崩壊にとって重要であり、履歴蓄積を除去すると大きな影響を生む。
内部表現は拒否方向からの単調な逸脱を示し、STAR は急激な役割条件付き遷移と二相の潜在状態軌道を誘発する。
履歴は因果的な状態操作子である：履歴のシャッフル、切り詰め、拒否の注入は順守性に大きく影響し、経路依存性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。