[논문 리뷰] Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs
이 논문은 대화 턴 위치 기반으로 활성화되는 백도어인 Turn-based Structural Trigger (TST)를 소개하며, 사용자 입력에 의존하지 않고도 낮은 유틸리티 손실로 높은 공격 성공률을 달성하고 일반적인 방어에 저항합니다.
Large Language Models (LLMs) are widely integrated into interactive systems such as dialogue agents and task-oriented assistants. This growing ecosystem also raises supply-chain risks, where adversaries can distribute poisoned models that degrade downstream reliability and user trust. Existing backdoor attacks and defenses are largely prompt-centric, focusing on user-visible triggers while overlooking structural signals in multi-turn conversations. We propose Turn-based Structural Trigger (TST), a backdoor attack that activates from dialogue structure, using the turn index as the trigger and remaining independent of user inputs. Across four widely used open-source LLM models, TST achieves an average attack success rate (ASR) of 99.52% with minimal utility degradation, and remains effective under five representative defenses with an average ASR of 98.04%. The attack also generalizes well across instruction datasets, maintaining an average ASR of 99.19%. Our results suggest that dialogue structure constitutes an important and under-studied attack surface for multi-turn LLM systems, motivating structure-aware auditing and mitigation in practice.
연구 동기 및 목표
- 다회차 LLM에서 입력 텍스트가 아닌 대화 구조를 이용하는 새로운 백도어 트리거 채널을 식별한다.
- Turn-based Structural Trigger (TST)를 사전 정의된 턴에서 활성화되는 구조 조건부 백도어로 형식화한다.
- 여러 개의 오픈 소스 LLM과 데이터셋에서 TST의 효과성과 은닉성을 입증한다.
- 일반적인 방어에 대한 TST의 강건성과 명령 세트에 따른 일반화 가능성을 평가한다.
제안 방법
- 구조 기반 백도어를 위한 LLM 공급망에서 현실적 근거가 있는 위협 모델을 정의한다.
- TST 활성화를 사용자 입력과 무관한 대화 턴 인덱스의 함수로 형식화한다 (Trigger(u_t)).
- 트리거 턴에서 보조 대답을 공격자 페이로드로 교체하여 오염된 대화 데이터를 구성한다.
- benign 성능을 보존하면서 백도어를 주입하기 위해 L_backdoor를 포함한 다항 손실(L_SFT, L_poison, L_clean, L_punish, L_entropy)을 최적화한다.
- LoRA를 적용하여 최소한의 매개변수 업데이트로 TST를 구현한다.
- 네 가지 대상 모델과 다양한 방어에서 ASR, CR, FTR 및 유틸리티를 평가한다.
실험 결과
연구 질문
- RQ1대화 구조(턴 위치)만으로 백도어 활성화를 실행할 수 있나?
- RQ2다양한 모델과 데이터셋에서 TST의 효과성과 보이지 않는 대화에 대한 일반화 성능은 어떠한가?
- RQ3기존 방어는 프롬프트 기반 트리거에 비해 구조 기반 백도어를 어느 정도 완화하는가?
- RQ4트리거가 아닌 턴에서의 TST가 모델의 유틸리티와 신뢰성에 미치는 영향은 어떠한가?
주요 결과
- TST는 네 가지 대상 모델에서 평균 ASR 99.52%를 달성한다.
- TST는 트리거가 아닌 턴에서 깨끗한 모델의 성능의 약 96.47%를 평균적으로 보존한다.
- TST는 분리된 대화 데이터세트로 일반화되며 ASR 99.19%를 달성한다.
- TST는 다섯 가지 방어 하에서도 여전히 효과적이며 평균 ASR 98.04%를 달성한다.
- Table 2 shows ASR, CR, and FTR per model with ASR ranging from 98.95% to 99.98%, CR at 100%, and FTR at 0%.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.