[论文解读] Robust Perception through Analysis by Synthesis.
本文提出了一种新颖的鲁棒分类模型,通过使用基于生成的分析方法与学习到的类别条件数据分布,在MNIST上实现了最先进的对抗鲁棒性。该方法对L0、L2和L-infinity攻击表现出强大的抵抗力,包括一种新型的最小化扰动像素数的决策型攻击,并表明对抗样本在感知上是合理的,朝着类别之间的边界移动。
Despite much effort, deep neural networks remain highly susceptible to tiny input perturbations and even for MNIST, one of the most common toy datasets in computer vision, no neural network model exists for which adversarial perturbations are large and make semantic sense to humans. We show that even the widely recognized and by far most successful defense by Madry et al. (1) overfits on the L-infinity metric (it's highly susceptible to L2 and L0 perturbations), (2) classifies unrecognizable images with high certainty, (3) performs not much better than simple input binarization and (4) features adversarial perturbations that make little sense to humans. These results suggest that MNIST is far from being solved in terms of adversarial robustness. We present a novel robust classification model that performs analysis by synthesis using learned class-conditional data distributions. We derive bounds on the robustness and go to great length to empirically evaluate our model using maximally effective adversarial attacks by (a) applying decision-based, score-based, gradient-based and transfer-based attacks for several different Lp norms, (b) by designing a new attack that exploits the structure of our defended model and (c) by devising a novel decision-based attack that seeks to minimize the number of perturbed pixels (L0). The results suggest that our approach yields state-of-the-art robustness on MNIST against L0, L2 and L-infinity perturbations and we demonstrate that most adversarial examples are strongly perturbed towards the perceptual boundary between the original and the adversarial class.
研究动机与目标
- 解决深度神经网络在MNIST上对微小、难以察觉的对抗扰动持续存在的脆弱性问题。
- 挑战现有防御方法(包括Madry等人提出的L-infinity鲁棒模型)提供真正鲁棒性的假设。
- 基于类别条件数据分布的生成建模,开发一种新的防御机制以提升鲁棒性。
- 通过多种Lp范数下的对抗攻击(包括一种新型的L0最小化决策型攻击)对鲁棒性进行实证评估。
提出的方法
- 该模型通过从学习到的类别条件数据分布中生成样本,以指导分类,实现基于生成的分析。
- 采用类似变分自编码器的框架对每种类别的数据分布进行建模,从而实现基于重建的决策机制。
- 通过在生成模型下对对抗样本的似然性进行有界分析,实现鲁棒性的理论推导。
- 设计了一种新型的决策型攻击,以利用受保护模型中的结构性弱点,重点是最小化被扰动的像素数(L0)。
- 在L0、L2和L-infinity范数下,结合梯度型、基于得分、迁移型和决策型攻击对模型进行评估。
- 对对抗样本进行分析,表明其始终向原始类别与对抗类别之间的感知边界移动。
实验结果
研究问题
- RQ1基于生成模型的防御方法是否能在MNIST上对多种Lp范数实现优于现有防御的鲁棒性?
- RQ2针对该模型生成的对抗样本是否对人类具有感知一致性与语义意义?
- RQ3一种新型的最小化被扰动像素数(L0)的决策型攻击,在规避所提出的防御方面有多有效?
- RQ4该模型的鲁棒性是否源于对数据分布的真实理解,还是对特定攻击类型的过拟合?
- RQ5由该模型生成的对抗样本在多大程度上向类别之间的感知边界移动?
主要发现
- 所提出的模型在MNIST上对L0、L2和L-infinity对抗攻击实现了最先进的鲁棒性。
- 尽管Madry等人提出的防御方法声誉卓著,但其在L-infinity度量下存在过拟合现象,并在L2和L0攻击下失效。
- 该模型对无法识别的输入分类置信度较低,表明其校准性优于标准防御方法。
- 针对该模型生成的对抗样本强烈地向原始类别与对抗类别之间的感知边界移动。
- 新型决策型攻击成功最小化了被扰动的像素数(L0),并有效规避了防御机制,表明该模型在极小扰动下仍具有鲁棒性。
- 输入二值化方法的表现与某些防御方法相当,提示当前的鲁棒性声明可能存在高估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。