Skip to main content
QUICK REVIEW

[论文解读] Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs

Yiyang Lu, Jinwen He|arXiv (Cornell University)|Jan 20, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

本文提出 Turn-based Structural Trigger (TST),它基于对话轮次位置而非用户输入激活,具有在最小化效用损失的同时实现高攻击成功率并对常见防御具有抵抗力的特性。

ABSTRACT

Large Language Models (LLMs) are widely integrated into interactive systems such as dialogue agents and task-oriented assistants. This growing ecosystem also raises supply-chain risks, where adversaries can distribute poisoned models that degrade downstream reliability and user trust. Existing backdoor attacks and defenses are largely prompt-centric, focusing on user-visible triggers while overlooking structural signals in multi-turn conversations. We propose Turn-based Structural Trigger (TST), a backdoor attack that activates from dialogue structure, using the turn index as the trigger and remaining independent of user inputs. Across four widely used open-source LLM models, TST achieves an average attack success rate (ASR) of 99.52% with minimal utility degradation, and remains effective under five representative defenses with an average ASR of 98.04%. The attack also generalizes well across instruction datasets, maintaining an average ASR of 99.19%. Our results suggest that dialogue structure constitutes an important and under-studied attack surface for multi-turn LLM systems, motivating structure-aware auditing and mitigation in practice.

研究动机与目标

  • 识别在多轮LLMs中利用对话结构而非输入文本的新后门触发通道。
  • 将 Turn-based Structural Trigger (TST) 形式化为在预定义轮次上被激活的结构条件后门。
  • 在多种开源LLM与数据集上证明 TST 的有效性与隐蔽性。
  • 评估 TST 对常见防御的鲁棒性及其对指令集的泛化能力。

提出的方法

  • 在LLM供应链中定义基于结构的后门的现实世界威胁模型。
  • 将 TST 激活形式化为与对话轮次索引相关的函数(Trigger(u_t)),与用户输入无关。
  • 通过在触发轮次将助手输出替换为攻击者载荷来构造被污染的对话数据。
  • 优化一个多项损失函数(L_backdoor),包括 L_SFT、L_poison、L_clean、L_punish 与 L_entropy,以在植入后门的同时尽可能保留良性性能。
  • 应用 Low-Rank Adaptation (LoRA) 实现 TST,尽量减少参数更新量。
  • 在四个目标模型和多种防御下评估 ASR、CR、FTR 与 实用性。

实验结果

研究问题

  • RQ1后门激活是否可以仅由对话结构(轮次位置)驱动,而非用户文本输入?
  • RQ2TST 在多模型和多数据集上的效果如何,是否能对未见对话进行良好泛化?
  • RQ3与基于提示的触发相比,现有防御在多大程度上缓解基于结构的后门?
  • RQ4TST 对非触发轮次的模型实用性和可信度有何影响?

主要发现

  • TST 在四个目标模型上的平均 ASR 为 99.52%。
  • TST 在非触发轮次上平均保留了清洁模型约 96.47% 的性能。
  • TST 能推广至不相交的对话数据集,ASR 为 99.19%。
  • 在五种防御下,TST 仍然有效,平均 ASR 为 98.04%。
  • 表 2 显示各模型的 ASR、CR 和 FTR,ASR 范围为 98.95%~99.98%,CR 为 100%,FTR 为 0%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。