Skip to main content
QUICK REVIEW

[论文解读] Batch Size Matters: A Diffusion Approximation Framework on Nonconvex Stochastic Gradient Descent.

Chris Junchi Li, Lei Li|arXiv (Cornell University)|May 22, 2017
Stochastic Gradient Optimization Techniques被引用 5
一句话总结

本文提出一种扩散近似框架,用于分析非凸随机梯度下降(SGD),表明小步长和各向同性噪声可导致从局部极小值点指数级逃逸,以及从鞍点近乎线性逃逸。研究证明,小批量有助于逃离尖锐极小值点和不稳定点,而后期增大批量则有助于将SGD困在更平坦的极小值点,从而实现更好的泛化性能。

ABSTRACT

We study the Stochastic Gradient Descent (SGD) method in nonconvex optimization problems from the point of view of approximating diffusion processes. We prove rigorously that the diffusion process can approximate the SGD algorithm weakly using the weak form of master equation for probability evolution. In the small step size regime and the presence of omnidirectional noise, our weak approximating diffusion process suggests the following dynamics for the SGD iteration starting from a local minimizer (resp.~saddle point): it escapes in a number of iterations exponentially (resp.~almost linearly) dependent on the inverse stepsize. The results are obtained using the theory for random perturbations of dynamical systems (theory of large deviations for local minimizers and theory of exiting for unstable stationary points). In addition, we discuss the effects of batch size for the deep neural networks, and we find that small batch size is helpful for SGD algorithms to escape unstable stationary points and sharp minimizers. Our theory indicates that one should increase the batch size at later stage for the SGD to be trapped in flat minimizers for better generalization.

研究动机与目标

  • 通过扩散过程的视角,理解非凸优化中SGD的动力学行为。
  • 严格分析在小步长和噪声条件下,SGD如何逃离局部极小值点和鞍点。
  • 研究批量大小在控制逃逸行为和泛化性能方面的作用。
  • 为后期训练阶段增大批量以偏好平坦极小值点提供理论依据。

提出的方法

  • 使用主方程的弱形式,通过扩散过程弱近似SGD的概率演化。
  • 应用大偏差理论分析从局部极小值点邻域逃逸的时间。
  • 运用不稳定平衡点的逃逸时间理论,研究鞍点逃逸的动力学。
  • 表征逃逸时间对步长的依赖关系,揭示指数级与近乎线性量级的差异。
  • 推导出小批量如何增强从尖锐极小值点和不稳定点逃逸的理论条件。
  • 提出一种随时间增加批量的训练策略,以偏好平坦极小值点。

实验结果

研究问题

  • RQ1在非凸优化中,步长如何影响SGD从局部极小值点的逃逸时间?
  • RQ2批量大小与SGD逃逸鞍点及尖锐极小值点的能力之间存在何种理论关系?
  • RQ3扩散近似如何解释SGD在不稳定和稳定驻点附近的动力学行为?
  • RQ4为何在后期训练阶段增大批量能改善泛化性能?

主要发现

  • SGD通过扩散过程的弱近似证实,从局部极小值点逃逸的时间与步长的倒数呈指数级关系。
  • 在相同条件下,从鞍点逃逸的时间与步长的倒数近乎线性相关。
  • 由于噪声水平更高,小批量可增强逃离尖锐极小值点和不稳定驻点的可能性。
  • 该理论支持在训练过程中增大批量,以偏好收敛至更平坦的极小值点,从而实现更好的泛化。
  • 研究结果基于局部极小值点的大偏差理论和不稳定平衡点的逃逸时间理论。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。