Skip to main content
QUICK REVIEW

[论文解读] Understanding the Decision Boundary of Deep Neural Networks: An Empirical Study

David Mickisch, Felix Assion|arXiv (Cornell University)|Feb 5, 2020
Adversarial Robustness in Machine Learning参考文献 38被引用 25
一句话总结

这项实证研究调查了深度神经网络的决策边界在训练过程中的演化,发现即使在准确率趋于稳定的后期训练阶段,自然图像到决策边界的最小距离(边际)仍会随时间减少。对抗训练可缓解这一趋势,稳定边际并提高鲁棒性,表明较差的鲁棒性源于训练动态,而非网络架构或初始化方式。

ABSTRACT

Despite achieving remarkable performance on many image classification tasks, state-of-the-art machine learning (ML) classifiers remain vulnerable to small input perturbations. Especially, the existence of adversarial examples raises concerns about the deployment of ML models in safety- and security-critical environments, like autonomous driving and disease detection. Over the last few years, numerous defense methods have been published with the goal of improving adversarial as well as corruption robustness. However, the proposed measures succeeded only to a very limited extent. This limited progress is partly due to the lack of understanding of the decision boundary and decision regions of deep neural networks. Therefore, we study the minimum distance of data points to the decision boundary and how this margin evolves over the training of a deep neural network. By conducting experiments on MNIST, FASHION-MNIST, and CIFAR-10, we observe that the decision boundary moves closer to natural images over training. This phenomenon even remains intact in the late epochs of training, where the classifier already obtains low training and test error rates. On the other hand, adversarial training appears to have the potential to prevent this undesired convergence of the decision boundary.

研究动机与目标

  • 理解为何最先进的深度神经网络在准确率很高的情况下,仍对对抗样本和输入噪声保持脆弱。
  • 研究深度神经网络在训练过程中,数据点到决策边界的距离如何变化。
  • 评估对抗训练是否改变决策边界接近度的演化过程并提升鲁棒性。
  • 探索模型校准、预测置信度与到决策边界的距离之间的关系。
  • 评估所观察到的边际动态是否在不同架构和数据集之间具有泛化性。

提出的方法

  • 使用DeepFool算法作为近似方法,实证追踪每个数据点到决策边界的最小距离(边际)。
  • 在MNIST、Fashion-MNIST和CIFAR-10上训练标准模型与对抗训练模型,以比较不同训练范式下的边际演化。
  • 在多个训练阶段计算正确分类和错误分类图像的ℓ₂和ℓ∞-范数边际。
  • 分析平均边际随时间的变化趋势,以检测决策边界是否向自然数据收敛或发散。
  • 使用PGD攻击进行对抗训练,评估其对边际稳定性和鲁棒性的影响。
  • 比较标准模型与对抗训练模型之间的边际分布,以评估鲁棒性在ℓ₂与ℓ∞范数之间的可迁移性。

实验结果

研究问题

  • RQ1在深度神经网络的训练过程中,自然图像到决策边界的距离如何变化?
  • RQ2即使在准确率趋于稳定的后期训练阶段,边际距离的减小趋势是否仍然持续?
  • RQ3对抗训练能否阻止决策边界向自然图像收敛?
  • RQ4正确分类与错误分类图像之间的边际距离是否存在显著差异?
  • RQ5边际稳定性的提升在多大程度上与对抗样本和噪声的鲁棒性提升相关?

主要发现

  • 在训练过程中,决策边界会逐步向训练集和测试集图像靠近,即使在准确率已趋于稳定的后期阶段也是如此。
  • 即使训练误差和测试误差都很低,决策边界向自然数据收敛的趋势依然存在,表明高准确率并不意味着鲁棒性。
  • 对抗训练使正确分类图像的平均边际保持稳定或增加,而标准训练中则出现下降趋势。
  • 错误分类图像的边际随时间持续减小,表明其对扰动更具脆弱性。
  • 对抗训练在MNIST和Fashion-MNIST上实现了ℓ₂与ℓ∞范数之间鲁棒性的迁移,表明边际稳定性的泛化能力得到提升。
  • 预测置信度与实际边际距离之间存在显著差异,表明模型校准性较差,尤其在误分类样本中更为明显。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。