[论文解读] WaNet -- Imperceptible Warping-based Backdoor Attack
WaNet 引入了一种基于弹性图像扭曲的不可察觉后门触发器。它在清晰度和攻击准确性方面表现出色,同时能够规避常见防御,且在物理世界场景中仍然有效。
With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.
研究动机与目标
- 在使用第三方模型时引发后门攻击风险的动机,特别是对不可察觉触发器。
- 提出一种基于弹性图像扭曲、能够保留自然图像内容的隐蔽后门机制。
- 开发一种训练方案,防止学习伪像素伪影,并确保后门依赖于扭曲变形。
- 展示 WaNet 在对抗防御和在现实世界中的有效性与隐蔽性,包括实际物理部署。
提出的方法
- 定义后门注入函数 B(x) = W(x, M),其中 W 使用学习得到的扭曲场 M 对图像进行扭曲。
- 从具有强度参数 s 的控制点网格生成扭曲场 M,采用随机网格和双三次上采样。
- 通过将 M 限制为小、具有弹性且在图像边界内,来强制产生自然的扭曲。
- 采用三种模式(清洁、攻击和新颖的噪声模式)进行训练,以防止模型记忆像素级伪影,并强制学习扭曲。
- 噪声模式在训练中扰动扭曲(M + 随机噪声),以使后门响应不出现在不是预定义扭曲的扭曲输入上。
- 在全一后门设定下用数据集 MNIST、CIFAR-10、GTSRB、CelebA 进行评估,并衡量清洁与攻击准确率以及对重新捕获和失真等鲁棒性。
实验结果
研究问题
- RQ1不可察觉的基于扭曲的触发器是否能够实现有效的后门行为,同时对人类和防御措施保持不可检测?
- RQ2专门的噪声模式训练方案是否能够阻止模型学习可利用的像素伪影,并提高对 Neural Cleanse 等防御的隐蔽性?
- RQ3WaNet 在现实世界条件下是否具有鲁棒性,包括相机捕获和物理显示场景?
- RQ4WaNet 如何应对已确立的后门防御(Neural Cleanse、Fine-Pruning、STRIP)以及常见的可视化工具?
主要发现
- WaNet 在 MNIST、CIFAR-10、GTSRB、CelebA 上达到高的清洁与攻击准确率,当应用预定义的扭曲时攻击成功率接近目标。
- WaNet 产生的后门图像在人眼几乎与干净图像无法区分,在人工检查测试中优于基于补丁的触发和其他先前触发器。
- 专门的噪声模式训练防止依赖像素伪影,降低对 Neural Cleanse 等分析的易受攻击性。
- WaNet 在基于相机的重新捕捉和极端捕捉条件下仍然有效,保持高攻击成功率。
- WaNet 能力克服若干防御;Neural Cleanse 对 WaNet 的异常指数很低,STRIP 的熵模式与良性模型一致,Fine-Pruning 不会削弱后门。
- 消融研究表明噪声模式对于维持对防御的隐蔽性是必要的,并且扭曲强度和控制点网格大小会影响可检测性和有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。