Skip to main content
QUICK REVIEW

[论文解读] SmoothOut: Smoothing Out Sharp Minima to Improve Generalization in Deep Learning

Wei Wen, Yandan Wang|arXiv (Cornell University)|May 21, 2018
Stochastic Gradient Optimization Techniques参考文献 7被引用 28
一句话总结

SmoothOut 通过在权重上施加均匀扰动来平滑损失曲面中的尖锐极小值,从而提升深度学习的泛化性能,降低对权重波动的敏感性。该方法在理论上证明了平坦极小值在扰动下具有更低的期望损失,实验结果表明其在小批量和大批量训练设置下,于 CIFAR-100 和 ResNet-44 上均表现出更强的鲁棒性和更高的准确率。

ABSTRACT

In Deep Learning, Stochastic Gradient Descent (SGD) is usually selected as a training method because of its efficiency; however, recently, a problem in SGD gains research interest: sharp minima in Deep Neural Networks (DNNs) have poor generalization; especially, large-batch SGD tends to converge to sharp minima. It becomes an open question whether escaping sharp minima can improve the generalization. To answer this question, we propose SmoothOut framework to smooth out sharp minima in DNNs and thereby improve generalization. In a nutshell, SmoothOut perturbs multiple copies of the DNN by noise injection and averages these copies. Injecting noises to SGD is widely used in the literature, but SmoothOut differs in lots of ways: (1) a de-noising process is applied before parameter updating; (2) noise strength is adapted to filter norm; (3) an alternative interpretation on the advantage of noise injection, from the perspective of sharpness and generalization; (4) usage of uniform noise instead of Gaussian noise. We prove that SmoothOut can eliminate sharp minima. Training multiple DNN copies is inefficient, we further propose an unbiased stochastic SmoothOut which only introduces the overhead of noise injecting and de-noising per batch. An adaptive variant of SmoothOut, AdaSmoothOut, is also proposed to improve generalization. In a variety of experiments, SmoothOut and AdaSmoothOut consistently improve generalization in both small-batch and large-batch training on the top of state-of-the-art solutions.

研究动机与目标

  • 解决深度神经网络因损失曲面中存在尖锐极小值而导致的泛化性能差的问题。
  • 形式化平坦极小值与尖锐极小值在权重扰动下与期望损失之间关系的理论框架。
  • 提出一种通过均匀扰动平滑尖锐极小值以提升泛化性能的方法。
  • 从理论上和实证上验证:在扰动下,平坦极小值的期望损失更低。

提出的方法

  • 该方法在以权重为中心、半径为 $ a $ 的超立方体内定义均匀扰动分布,以计算期望损失 $ \bar{C}(\bm{w}) $。
  • 证明对称的平坦极小值满足 $ \nabla\bar{C}(\bm{w}_f) = \bm{0} $,表明其在扰动下具有稳定性。
  • 理论分析表明,对于尖锐极小值,扰动区域内期望损失的最小值超过该区域内损失的最大值。
  • 通过体积比推导期望损失的上界,证明在高维空间中 $ \min_{\mathcal{D}(\bm{w}_s,\varepsilon)} \bar{C}(\bm{w}) > \max_{\mathcal{D}(\bm{w}_s,\varepsilon)} C(\bm{w}) $。
  • 该方法利用高斯测度集中现象,表明高维空间中扰动体积使尖锐极小值变得愈发不稳定。
  • 通过在小批量和大批量训练设置下,使用 Adam 和 SGD 优化器在 CIFAR-100 和 ResNet-44 上进行实证验证。

实验结果

研究问题

  • RQ1均匀权重扰动是否能有效降低深度学习中对尖锐极小值的敏感性?
  • RQ2在高维权重空间中,期望损失的理论边界能否有效区分平坦极小值与尖锐极小值?
  • RQ3在均匀扰动下,平坦极小值的期望损失与尖锐极小值相比如何?
  • RQ4SmoothOut 在不同批量大小和数据集上对泛化性能的提升程度如何?
  • RQ5对称性与维度在扰动下对极小值稳定性的作用是什么?

主要发现

  • 理论分析确认,在对称扰动下,平坦极小值满足 $ \nabla\bar{C}(\bm{w}_f) = \bm{0} $,表明其具有稳定性。
  • 在高维空间中,围绕尖锐极小值的扰动区域内,期望损失的最小值超过该区域内的最大损失,满足“尖锐约束”(Sharp Constraint)。
  • 当 $ m $ 较大时,$ \min_{\mathcal{D}(\bm{w}_s,\varepsilon)} \bar{C}(\bm{w}) \to C^{(s)}_{\varepsilon'} $,表明尖锐极小值在扰动下变得愈发不稳定。
  • 在 $ C_3 $ 网络上的 CIFAR-100 实验结果表明,SmoothOut 在不同噪声强度下均提升了准确率与损失稳定性。
  • 在 ResNet-44 上,SmoothOut 在小批量和大批量训练设置下均保持优越性能,展现出对批量大小变化的鲁棒性。
  • 可视化结果证实,SmoothOut 在小批量和大批量训练场景下均能有效降低极小值的尖锐度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。