Skip to main content
QUICK REVIEW

[论文解读] On the Decision Boundary of Deep Neural Networks

Li Yu, Lizhong Ding|arXiv (Cornell University)|Aug 16, 2018
Adversarial Robustness in Machine Learning参考文献 30被引用 31
一句话总结

本文在弱假设下,从理论和实证两方面证明了深度神经网络的最后权重层在损失收敛至零时,会收敛到由最后一层隐藏层特征训练的线性SVM解。对于使用交叉熵损失的二分类和多分类任务,当损失收敛至零时,决策边界与SVM的决策边界一致,且完整网络训练可优化偏置常数,从而提升泛化性能。

ABSTRACT

While deep learning models and techniques have achieved great empirical success, our understanding of the source of success in many aspects remains very limited. In an attempt to bridge the gap, we investigate the decision boundary of a production deep learning architecture with weak assumptions on both the training data and the model. We demonstrate, both theoretically and empirically, that the last weight layer of a neural network converges to a linear SVM trained on the output of the last hidden layer, for both the binary case and the multi-class case with the commonly used cross-entropy loss. Furthermore, we show empirically that training a neural network as a whole, instead of only fine-tuning the last weight layer, may result in better bias constant for the last weight layer, which is important for generalization. In addition to facilitating the understanding of deep learning, our result can be helpful for solving a broad range of practical problems of deep learning, such as catastrophic forgetting and adversarial attacking. The experiment codes are available at https://github.com/lykaust15/NN_decision_boundary

研究动机与目标

  • 在对数据和模型架构的假设尽可能少的前提下,理解深度神经网络的决策边界。
  • 研究随机梯度下降(SGD)在深度学习中,特别是对最终分类器层的隐式偏差。
  • 弥合简化模型的理论分析与实际深度学习性能之间的差距。
  • 探讨完整网络训练与微调最后层在偏置常数和泛化性能上的差异。
  • 为灾难性遗忘和数据效率等实际深度学习挑战提供理论和实证依据。

提出的方法

  • 在损失收敛至零的假设下进行理论分析,无需线性可分性或特定数据分布的假设。
  • 将网络分解为一个变换函数(最后一层隐藏层)和一个最终线性分类器(最后一层权重),并证明后者在变换特征上收敛至SVM解。
  • 针对多分类任务,分析交叉熵损失,证明其收敛至多类线性SVM解。
  • 在CIFAR-10和MNIST数据集上,使用ResNet和DenseNet架构进行实证验证,评估最后层收敛至SVM决策边界的程度。
  • 比较完整网络训练与微调最后层在偏置常数上的差异,结果表明完整训练可获得更优的泛化性能。
  • 基于梯度动力学推导理论支持,表明随着训练进行,仅支持向量(最大间隔样本)影响最终权重方向。

实验结果

研究问题

  • RQ1当训练损失收敛至零时,深度神经网络的最后权重层是否收敛至基于最后一层隐藏层特征训练的线性SVM解?
  • RQ2在偏置常数和泛化性能方面,完整网络训练与微调最后层相比有何差异?
  • RQ3深度网络的决策边界是否可被表征为在最后一层隐藏层特征上训练的SVM的决策边界?
  • RQ4变换函数在决定深度学习中的数据效率和泛化性能方面起什么作用?
  • RQ5为何基于回放的SupportNet方法在实践中表现良好,能否从理论上加以解释?

主要发现

  • 在二分类和多分类情况下,使用交叉熵损失时,最后权重层的方向收敛至在最后一层隐藏层特征上训练的线性SVM方向。
  • 实证结果表明,完整网络训练相比微调,能使最后层获得更优的偏置常数,从而提升泛化性能。
  • 即使数据非线性可分,只要损失收敛至零,该SVM解的收敛性依然成立。
  • 理论分析证实,随着训练进行,仅支持向量(最小间隔样本)对梯度有贡献,从而解释了SGD的隐式偏差。
  • 该结果解释了SupportNet回放框架在灾难性遗忘问题中取得经验成功的原因,因其选择的样本对应于SVM的支持向量。
  • 研究结果表明,深度学习中的数据效率主要受限于变换函数,而非最终线性分类器,从而为有限数据下的有效迁移学习提供了可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。