[论文解读] PixelDefend: Leveraging Generative Models to Understand and Defend against Adversarial Examples
该论文表明对抗样本存在于训练数据的低概率区域,并引入 PixelDefend,一种使用 PixelCNN 密度模型的模型无关净化方法,通过将输入移动到训练分布来检测和防御对抗扰动。
Adversarial perturbations of normal images are usually imperceptible to humans, but they can seriously confuse state-of-the-art machine learning models. What makes them so special in the eyes of image classifiers? In this paper, we show empirically that adversarial examples mainly lie in the low probability regions of the training distribution, regardless of attack types and targeted models. Using statistical hypothesis testing, we find that modern neural density models are surprisingly good at detecting imperceptible image perturbations. Based on this discovery, we devised PixelDefend, a new approach that purifies a maliciously perturbed image by moving it back towards the distribution seen in the training data. The purified image is then run through an unmodified classifier, making our method agnostic to both the classifier and the attacking method. As a result, PixelDefend can be used to protect already deployed models and be combined with other model-specific defenses. Experiments show that our method greatly improves resilience across a wide variety of state-of-the-art attacking methods, increasing accuracy on the strongest attack from 63% to 84% for Fashion MNIST and from 32% to 70% for CIFAR-10.
研究动机与目标
- 让动机是对抗扰动在跨攻击中大体占据训练分布的低概率区域。
- 证明现代神经密度模型可以通过似然/覆盖统计检测不可感知的对抗扰动。
- 提出 PixelDefend,通过将输入移动到训练分布的高密度区域来净化输入,而不改变分类器。
- 表明 PixelDefend 在 CFAIR-10 和 Fashion-MNIST 上对广泛攻击提升鲁棒性,并且可以与现有防御互补。
提出的方法
- 在清洁训练数据上训练 PixelCNN 来建模输入分布 p(X)。
- 使用似然度通过计算 p(X) 及其在训练样本中的排名 via permutation-based p-value,来检测对抗输入。
- 将 PixelDefend 表述为在输入的 L∞-ε-球内找到最高概率的图像,通过贪心解码近似。
- 实现一个快速净化过程(带缓存的贪心解码)以生成 X*,使其在 PixelCNN 下具有更高的 p(X*)。
- 保持分类器不变;PixelDefend 与其他防御兼容(如对抗训练)。
实验结果
研究问题
- RQ1生成密度模型能否在不同攻击中可靠检测对抗样本?
- RQ2将输入向训练分布净化是否在对抗扰动下提升分类器准确性?
- RQ3PixelDefend 是否对攻击和模型具备鲁棒的无关性,是否能与现有防御结合?
- RQ4针对 Defense strength 的自适应调优如何影响清洁输入与对抗输入的表现?
主要发现
- PixelCNN 对对抗样本的似然显著低于清洁图像,表明扰动处于低概率区域。
- 从 PixelCNN 得出的 p 值在多种攻击方法中有效检测对抗输入。
- PixelDefend 净化提高了在训练分布下的概率,并显著提升在强攻击下的准确率(例如 CIFAR-10 最强攻击从 32% 提升到 70%)。
- PixelDefend 是模型无关、攻击无关,可以与对抗训练结合进一步提升鲁棒性。
- 自适应 PixelDefend 可以减少对高概率输入的修改,缓解对清洁图像的过校正。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。