Skip to main content
QUICK REVIEW

[论文解读] Sharp Minima Can Generalize For Deep Nets

Laurent Dinh, Razvan Pascanu|arXiv (Cornell University)|Mar 15, 2017
Stochastic Gradient Optimization Techniques参考文献 51被引用 148
一句话总结

论文认为传统对最小值平坦性/尖锐性的概念不足以解释深度网络的泛化,因为不可 identifiability 和重新参数化;它演示等效模型可以被观察为任意尖锐或平坦的极小值,挑战基于平坦极小值的解释。

ABSTRACT

Despite their overwhelming capacity to overfit, deep learning architectures tend to generalize relatively well to unseen data, allowing them to be deployed in practice. However, explaining why this is the case is still an open area of research. One standing hypothesis that is gaining popularity, e.g. Hochreiter & Schmidhuber (1997); Keskar et al. (2017), is that the flatness of minima of the loss function found by stochastic gradient based methods results in good generalization. This paper argues that most notions of flatness are problematic for deep models and can not be directly applied to explain generalization. Specifically, when focusing on deep networks with rectifier units, we can exploit the particular geometry of parameter space induced by the inherent symmetries that these architectures exhibit to build equivalent models corresponding to arbitrarily sharper minima. Furthermore, if we allow to reparametrize a function, the geometry of its parameters can change drastically without affecting its generalization properties.

研究动机与目标

  • 评估基于平坦性的深度整流网络泛化解释的有效性。
  • 展示参数空间几何和观测等效性如何影响平坦性度量。
  • 证明重参数化可以在不改变泛化的情况下显著改变感知的尖锐度。

提出的方法

  • 定义并比较多种平坦/尖锐度度量(基于体积、基于Hessian,以及epsilon-尖锐度)。
  • 通过非负齐性和alpha-尺度变换揭示整流网络中的不可辨识性。
  • 证明alpha-尺度变换在不改变输出的情况下,在极小值周围创建无限大的平坦区域或极大的Hessian谱。
  • 将变换推广到多层网络并通过D_alpha推导对Hessian特征值的影响。

实验结果

研究问题

  • RQ1标准的平坦性概念是否能可靠预测深度整流网络的泛化?
  • RQ2在常用度量下,观测等价的参数化是否会产生任意尖锐或平坦的极小值?
  • RQ3重参数化如何影响极小值几何与泛化之间的关系?
  • RQ4将Hessian基度量作为深网泛化代理的极限是什么?

主要发现

  • 基于体积的epsilon-平坦性在典型的一层隐藏单元的整流网络周围可能是无限的,意味着在该度量下所有极小值看起来同样平坦。
  • 诸如谱范数和迹的Hessian基度量可以通过alpha-尺度变换在不改变函数的情况下任意操作。
  • 存在观测等价的极小值,其Hessian特征值可以任意大,挑战尖锐度与泛化之间的联系。
  • 对于更深的网络,可以通过参数缩放使得部分Hessian特征值变大,表明存在尖锐的方向而不影响泛化。
  • 重参数化(包括权重归一化和批量归一化变体)可以改变极小值的感知几何形状,但不影响泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。