QUICK REVIEW

[论文解读] WaNet -- Imperceptible Warping-based Backdoor Attack

Anh Nguyen, Anh Tran|arXiv (Cornell University)|Feb 20, 2021

Adversarial Robustness in Machine Learning参考文献 30被引用 128

一句话总结

WaNet 引入了一种基于弹性图像扭曲的不可察觉后门触发器。它在清晰度和攻击准确性方面表现出色，同时能够规避常见防御，且在物理世界场景中仍然有效。

ABSTRACT

With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.

研究动机与目标

在使用第三方模型时引发后门攻击风险的动机，特别是对不可察觉触发器。
提出一种基于弹性图像扭曲、能够保留自然图像内容的隐蔽后门机制。
开发一种训练方案，防止学习伪像素伪影，并确保后门依赖于扭曲变形。
展示 WaNet 在对抗防御和在现实世界中的有效性与隐蔽性，包括实际物理部署。

提出的方法

定义后门注入函数 B(x) = W(x, M)，其中 W 使用学习得到的扭曲场 M 对图像进行扭曲。
从具有强度参数 s 的控制点网格生成扭曲场 M，采用随机网格和双三次上采样。
通过将 M 限制为小、具有弹性且在图像边界内，来强制产生自然的扭曲。
采用三种模式（清洁、攻击和新颖的噪声模式）进行训练，以防止模型记忆像素级伪影，并强制学习扭曲。
噪声模式在训练中扰动扭曲（M + 随机噪声），以使后门响应不出现在不是预定义扭曲的扭曲输入上。
在全一后门设定下用数据集 MNIST、CIFAR-10、GTSRB、CelebA 进行评估，并衡量清洁与攻击准确率以及对重新捕获和失真等鲁棒性。

实验结果

研究问题

RQ1不可察觉的基于扭曲的触发器是否能够实现有效的后门行为，同时对人类和防御措施保持不可检测？
RQ2专门的噪声模式训练方案是否能够阻止模型学习可利用的像素伪影，并提高对 Neural Cleanse 等防御的隐蔽性？
RQ3WaNet 在现实世界条件下是否具有鲁棒性，包括相机捕获和物理显示场景？
RQ4WaNet 如何应对已确立的后门防御（Neural Cleanse、Fine-Pruning、STRIP）以及常见的可视化工具？

主要发现

WaNet 在 MNIST、CIFAR-10、GTSRB、CelebA 上达到高的清洁与攻击准确率，当应用预定义的扭曲时攻击成功率接近目标。
WaNet 产生的后门图像在人眼几乎与干净图像无法区分，在人工检查测试中优于基于补丁的触发和其他先前触发器。
专门的噪声模式训练防止依赖像素伪影，降低对 Neural Cleanse 等分析的易受攻击性。
WaNet 在基于相机的重新捕捉和极端捕捉条件下仍然有效，保持高攻击成功率。
WaNet 能力克服若干防御；Neural Cleanse 对 WaNet 的异常指数很低，STRIP 的熵模式与良性模型一致，Fine-Pruning 不会削弱后门。
消融研究表明噪声模式对于维持对防御的隐蔽性是必要的，并且扭曲强度和控制点网格大小会影响可检测性和有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。