[论文解读] Backdoor Attack in the Physical World
本文表明,在物理世界中测试触发器与训练时不同的静态触发的后门攻击脆弱,并提出基于变换的防御以及对这种变换鲁棒的增强攻击,在 CIFAR-10 上进行评估并在物理世界进行演示。
Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of infected models will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger. Currently, most existing backdoor attacks adopted the setting of static trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing trigger characteristics. We demonstrate that this attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. As such, those attacks are far less effective in the physical world, where the location and appearance of the trigger in the digitized image may be different from that of the one used for training. Moreover, we also discuss how to alleviate such vulnerability. We hope that this work could inspire more explorations on backdoor properties, to help the design of more advanced backdoor attack and defense methods.
研究动机与目标
- 研究静态触发的后门攻击在测试时触发器的位置信息或外观与训练时触发器不同是否仍然有效。
- 评估现有静态触发后门攻击对图像变换的脆弱性。
- 提出基于变换的防御,以在不改变模型或数据的前提下减轻此类攻击。
- 提出一种增强的后门攻击,使其在常见图像变换下仍然有效。
- 演示增强攻击与现实世界后门场景之间的联系。
提出的方法
- 模型与数据设定:在 CIFAR-10 上使用 BadNets,采用 VGG-19 和 ResNet-34,触发器为 3x3 的黑-灰触发。
- 通过两个独立属性来表征后门触发:位置与外观(最小覆盖框与触发模式)。
- 在推理时对触发器在小范围内的位置偏移和外观变化下评估攻击成功率 ASR。
- 提出一种基于变换的防御,通过变换对测试图像进行预处理(如翻转、缩放)。
- 通过使用参数化变换族 Theta 的一组变换的毒图片进行训练来开发增强攻击;采用采样方法来近似完整的变换空间。
- 展示增强攻击如何与现实世界中因数字化引发的变换相关并能在物理世界设置中取得成功。
实验结果
研究问题
- RQ1当测试时触发器在位置或外观上与训练触发器不同时,静态触发后门攻击是否仍然有效?
- RQ2简单的基于变换的预处理防御是否在不访问模型或数据的情况下减少后门的有效性?
- RQ3后门攻击是否可以增强以在常见变换(包括物理世界中遇到的变换)下保持鲁棒性?
- RQ4在基于变换的防御下,增强攻击的表现如何?它们是否能转化为物理世界的有效性?
主要发现
- 静态触发对触发位置敏感;轻微位移(几个像素)就会使 ASR 从接近 100% 降至低于 50%。
- 即使外观轻微改变也会显著降低 ASR,表明对外观变化的脆弱性。
- ShrinkPad4 防御在所研究的攻击和模型中将 ASR 降低超过 90%,而 Flip 对某些攻击有效防御;Auto-Encoder 通常在降低 ASR 的同时保持干净准确率方面较差。
- 增强后门攻击(在训练时有随机变换)在基于变换的防御下保持高 ASR,在大多数测试配置中优于标准攻击。
- 在物理世界测试中,BadNets+(增强攻击)在真实世界捕获中均成功,而标准 BadNets 失败,显示增强与物理后门之间的实际联系。
- 该工作通过变换的防御与对物理世界触发变异的鲁棒性之间的联系,并显示出激发更鲁棒的攻击/防御方法的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。