[论文解读] Towards the first adversarially robust neural network model on MNIST
本文认为 MNIST 在对抗鲁棒性方面尚未解决,并引入 Analysis by Synthesis (ABS) 结合带类别条件的 VAE,以在 L0、L2、和 L∞ 攻击上达到最先进的鲁棒性,且对抗样例具有语义意义。
Despite much effort, deep neural networks remain highly susceptible to tiny input perturbations and even for MNIST, one of the most common toy datasets in computer vision, no neural network model exists for which adversarial perturbations are large and make semantic sense to humans. We show that even the widely recognized and by far most successful defense by Madry et al. (1) overfits on the L-infinity metric (it's highly susceptible to L2 and L0 perturbations), (2) classifies unrecognizable images with high certainty, (3) performs not much better than simple input binarization and (4) features adversarial perturbations that make little sense to humans. These results suggest that MNIST is far from being solved in terms of adversarial robustness. We present a novel robust classification model that performs analysis by synthesis using learned class-conditional data distributions. We derive bounds on the robustness and go to great length to empirically evaluate our model using maximally effective adversarial attacks by (a) applying decision-based, score-based, gradient-based and transfer-based attacks for several different Lp norms, (b) by designing a new attack that exploits the structure of our defended model and (c) by devising a novel decision-based attack that seeks to minimize the number of perturbed pixels (L0). The results suggest that our approach yields state-of-the-art robustness on MNIST against L0, L2 and L-infinity perturbations and we demonstrate that most adversarial examples are strongly perturbed towards the perceptual boundary between the original and the adversarial class.
研究动机与目标
- 证明在当前防御下,MNIST 的对抗鲁棒性仍未得到解决。
- 提出基于分析再合成(ABS)并具有类别条件分布的鲁棒分类模型。
- 提供实例特定的鲁棒性保证和强鲁棒性评估。
- 证明 ABS 能产生接近人类感知边界且具语义含义的对抗样本。
提出的方法
- 为每个类别训练一个独立的 VAE p(x|y),以学习类别条件数据分布。
- 在潜在空间中进行梯度下降,以计算每个类别的实例特定对数似然下界(ell_y*)。
- 通过对 exp(alpha ell_y*) 的类别条件 softmax 进行分类,并加入一个小的偏移 eta,以避免对分布外输入做出过度自信的决策。
- 可选地应用像素二值化和判别式微调(Binary ABS)以提高鲁棒性和准确性。
- 开发并应用多样的对抗攻击(基于梯度、基于分数、基于决策、基于转移),包括新颖的 Latent Descent 攻击和新的 L0 基于决策的攻击。
- 提供对鲁棒性的解析界限(epsilon),并与 Madry 风格的对抗训练进行比较。
实验结果
研究问题
- RQ1使用类别条件数据分布的分析再合成模型是否能够提升 MNIST 的对抗鲁棒性,超过现有最先进防御?
- RQ2在多种对抗威胁模型(L0、L2、L∞)下,实例特定的鲁棒性保证如何表现?
- RQ3与以往防御相比,ABS 的对抗样本是否具有语义含义并与人类感知对齐?
- RQ4像素二值化和判别式微调对鲁棒性和准确性的影响如何?
主要发现
- ABS 在 L0、L2、和 L∞ 扰动下实现对 MNIST 的最先进鲁棒性。
- 在 L2 上,ABS 在中位对抗距离方面优于所有其他模型。
- 在 L∞,Binary ABS 在中位干扰大小方面处于最先进水平,阈值化影响感知鲁棒性。
- 在 L0,ABS 与 Binary ABS 比所有其他模型更鲁棒,包括 Madry 等人的防御。
- 下界鲁棒性估计表明 ABS μ-L2 鲁棒性 ε ≈ 0.690 ± 0.005(平均)和 Binary ABS ≈ 0.601 ± 0.005(平均,MNIST)在 L2 下。
- ABS 的对抗样本具语义意义,且位于原始类别与对抗类别之间的感知边界附近。
- 作者提供了广泛的攻击评估(潜变量、基于决策、基于转移、基于梯度)并承认鲁棒性评估的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。