QUICK REVIEW

[논문 리뷰] State-Dependent Safety Failures in Multi-Turn Language Model Interaction

Pengcheng Li, Jie Zhang (64655)|arXiv (Cornell University)|2026. 03. 15.

Topic Modeling인용 수 0

한 줄 요약

STAR는 구조화된 다중 턴 상호작용에서 안전 정렬이 붕괴할 수 있음을 보여주며, 정적 단일 턴 테스트가 놓치는 상태 의존적 안전 경계를 드러낸다. 대화 기록을 상태로 간주하고 이 상태가 진화하며 협력적 턴을 통해 안전 경계를 횡단할 수 있다.

ABSTRACT

Safety alignment in large language models is typically evaluated under isolated queries, yet real-world use is inherently multi-turn. Although multi-turn jailbreaks are empirically effective, the structure of conversational safety failure remains insufficiently understood. In this work, we study safety failures from a state-space perspective and show that many multi-turn failures arise from structured contextual state evolution rather than isolated prompt vulnerabilities. We introduce STAR, a state-oriented diagnostic framework that treats dialogue history as a state transition operator and enables controlled analysis of safety behavior along interaction trajectories. Rather than optimizing attack strength, STAR provides a principled probe of how aligned models traverse the safety boundary under autoregressive conditioning. Across multiple frontier language models, we find that systems that appear robust under static evaluation can undergo rapid and reproducible safety collapse under structured multi-turn interaction. Mechanistic analysis reveals monotonic drift away from refusal-related representations and abrupt phase transitions induced by role-conditioned context. Together, these findings motivate viewing language model safety as a dynamic, state-dependent process defined over conversational trajectories.

연구 동기 및 목표

대화 궤도에서 안전을 동적이고 상태 의존적인 과정으로 동기화한다.
대화 이력이 거절에 영향을 미치는 상태 전이 연산자 역할을 어떻게 하는지 조사한다.
STAR를 도입하여 상태 초기화와 상태 진화를 구분하고 안전 경계 Crossing을 진단한다.
정적 강건성에도 불구하고 다중 턴 상호작용에서 프런티어 모델이 악화될 수 있음을 입증한다.

제안 방법

진단 도구로서 공격이 아닌 진단 도구로서 STAR(상태 지향 역할 연기 프레임워크)를 도입하여 대화 턴 전반에 걸쳐 안전을 분석한다.
상호작용을 두 단계로 모델링한다: 상태 초기화(소프트닝, 역할 생성, 구조화된 턴)와 상태 진화(역할 조건부 턴 및 이력 개입).
보조 모델을 사용하여 역할 맥락과 후속 질의를 생성하고, 판정자(GPT-4o)가 각 턴에서 안전성을 평가한다.
잠재 상태 z_t와 상태 공간의 안전 경계를 해석하고 궤적Dynamics J(q, r_t)을 분석한다.
적응적 재시도 및 궤적 제어를 적용하여 턴 간 궤적 안정성을 유지하거나 검토한다.
초기화, 이력 축적, 모멘텀 제어의 안전 결과에 대한 인과 기여를 규명하기 위한 차별 실험(ablation)을 수행한다.

실험 결과

연구 질문

RQ1정적 단일 턴 프롬프트에 대해 안전성이 강건한가? 제어된 다중 턴 상호작용 하에서도 강건한가?
RQ2상태 초기화와 이력 기반 상태 진화가 안전 경계를 crossing하는 데 어떻게 기여하는가?
RQ3상태 의존적 안전 실패에 수반되는 내부 표현의 역학은 무엇인가?
RQ4궤적 지향 분석이 정적 평가에서 보이지 않는 인과적 경로 의존 요인을 밝힐 수 있는가?
RQ5STAR 아래 프런티어 모델의 안전 실패가 데이터셋 및 모델 계열 간에 일반화되는가?

주요 결과

정적 단일 턴 안전성은 테스트된 프런티어 모델에서 강건하게 보인다.
STAR의 다중 턴 궤적에서 안전 실패 비율(SFR)이 크게 상승한다(예: GPT-4o 94.5%, Gemini 2.0-Flash 96.1%).
STAR는 이전의 다중 턴 기준선보다 더 높은 SFR을 달성하며 HarmBench와 JailbreakBench 전반에 걸친 상태 의존적 안전 붕괴를 일반화한다.
초기화와 이력 축적이 안전 붕괴에 결정적이며, 이력 축적을 제거하면 효과가 크게 감소한다.
내부 표현은 거절 방향으로의 단조로운 편향을 드러내지 않고, STAR는 급격한 역할 조건부 전환과 두 단계의 잠재 상태 궤적을 유도한다.
이력은 인과적 상태 연산자이다: 이력을 섞거나 자르거나 거절을 주입하는 등의 조작이 준수성에 큰 영향을 주며 경로 의존성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.