[论文解读] Rethinking the Trigger of Backdoor Attack
这篇论文表明带有静态触发器的后门攻击对触发位置和外观敏感,提出一种基于变换的防御,并引入一种变换基增强以使攻击在物理场景中更鲁棒且更可应用。
Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of the infected model will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger, while it performs well on benign samples. Currently, most of existing backdoor attacks adopted the setting of \emph{static} trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing the characteristics of the static trigger. We demonstrate that such an attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. We further explore how to utilize this property for backdoor defense, and discuss how to alleviate such vulnerability of existing attacks.
研究动机与目标
- 研究后门触发器的位置与外观如何影响隐藏后门的激活。
- 评估带有静态触发器的后门攻击是否易受空间/外观变化影响。
- 提出一种简单的基于变换的防御,以缓解静态触发后门。
- 提出一种基于变换的对现有后门攻击的增强,以提高对触发变化的鲁棒性。
- 将增强后的攻击与潜在的现实世界后门场景联系起来。
提出的方法
- 将带有触发器 S 的后门印记过程以及无害图像 x 表示为 x_pooled = (1-α)·x + α·x_trigger。
- 使用无害样本与被污染样本的混合来训练,以在无害输入上获得高精度,同时将触发输入误分类为目标标签。
- 将触发特征定义为位置和外观,并通过 ASR(攻击成功率)来量化攻击成功。
- 证明触发位置的微小偏移或触发外观的变化能显著降低静态触发器的 ASR。
- 提出一个基于变换的防御 T,对测试图像进行预处理(如翻转、缩放)以破坏触发激活。
- 在训练期间引入对变换鲁棒的被污染图像增强,随机抽样变换以提高对防御的鲁棒性。
- 证明增强后的攻击在空间变换下仍保持较高的 ASR,并将该方法与物理后门攻击联系起来。
实验结果
研究问题
- RQ1改变触发位置或外观能否降低带静态触发器的后门攻击的有效性?
- RQ2在没有模型或数据访问的情况下,基于变换的前处理防御能否缓解静态触发后门?
- RQ3如何增强后门攻击,使其对触发变化具鲁棒性,包括在物理场景中?
主要发现
- 后门攻击的性能(ASR)对触发位置高度敏感;将触发器移动一个微小的量(2–3 像素)即可使 ASR 从接近 100% 降至低于 50%。
- 改变触发外观(非零像素值)会降低 ASR,表明对触发外观变化敏感。
- 对测试图像应用简单的空间变换防御(例如 Flip、ShrinkPad),可以显著降低 ASR,在许多情况下 ShrinkPad-4 将 ASR 降低超过 90%。
- 一种增强的后门攻击,在随机变换下训练污染图像,在基于变换的防御下保持较高的 ASR(通常优于标准攻击)。
- 增强后的攻击在物理攻击场景中也表现出鲁棒性,在拍摄时触发器出现在不同的距离/角度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。