[论文解读] Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM in Deep Learning
本文通过用 Lévy 驱动的 SDEs 建模梯度噪声并分析从局部盆地的逃逸时间,将 Radon 测度与盆地稳定性联系起来,解释 SGD 的泛化优于 Adam。
It is not clear yet why ADAM-alike adaptive gradient algorithms suffer from worse generalization performance than SGD despite their faster training speed. This work aims to provide understandings on this generalization gap by analyzing their local convergence behaviors. Specifically, we observe the heavy tails of gradient noise in these algorithms. This motivates us to analyze these algorithms through their Levy-driven stochastic differential equations (SDEs) because of the similar convergence behaviors of an algorithm and its SDE. Then we establish the escaping time of these SDEs from a local basin. The result shows that (1) the escaping time of both SGD and ADAM~depends on the Radon measure of the basin positively and the heaviness of gradient noise negatively; (2) for the same basin, SGD enjoys smaller escaping time than ADAM, mainly because (a) the geometry adaptation in ADAM~via adaptively scaling each gradient coordinate well diminishes the anisotropic structure in gradient noise and results in larger Radon measure of a basin; (b) the exponential gradient average in ADAM~smooths its gradient and leads to lighter gradient noise tails than SGD. So SGD is more locally unstable than ADAM~at sharp minima defined as the minima whose local basins have small Radon measure, and can better escape from them to flatter ones with larger Radon measure. As flat minima here which often refer to the minima at flat or asymmetric basins/valleys often generalize better than sharp ones , our result explains the better generalization performance of SGD over ADAM. Finally, experimental results confirm our heavy-tailed gradient noise assumption and theoretical affirmation.
研究动机与目标
- 激发深度学习中 SGD 与 Adam 之间的泛化差距。
- 引入一个 Lévy 驱动的 SDE 框架,用于建模 SGD 和 Adam 中的梯度噪声。
- 分析从局部盆地的逃逸时间,以解释收敛到更平坦的极小值。
- 将梯度噪声尾部的厚重性与几何自适应性与泛化性能联系起来。
提出的方法
- 将 SGD 和 Adam 表述为 Lévy 驱动的随机微分方程(SDE)的离散化。
- 假设梯度噪声遵循 SαS(重尾)分布,且协方差随时间变化。
- 从局部盆地 Ω 推导逃逸时间 Γ,并通过 Radon 测度 m(W) 来表征。
- 证明 Γ 的数量级为 O(ε^{-1} / m(W)),并分析几何自适应(Adam)和噪声尾部如何影响逃逸。
- 将 Lévy 过程分解为跳跃部分与小幅运动部分,以研究逃逸动力学(定理 2)。
- 提供对重尾梯度噪声以及理论框架的实证验证。
实验结果
研究问题
- RQ1在深度学习环境中,为什么 SGD 的泛化优于 Adam?
- RQ2重尾梯度噪声和逐坐标学习率自适应如何影响优化动力学?
- RQ3通过 Radon 测度观察盆地几何在 SGD 与 Adam 的逃逸行为中的作用?
- RQ4逃逸时间如何与收敛到更平坦/非对称盆地以及泛化性能相关?
主要发现
- SGD 与 Adam 的梯度噪声呈重尾特征,可以用 SαS 分布建模;这种尾部行为影响优化动力学。
- SGD 和 Adam 都会从尖锐极小值逃逸,SGD 通常更快逃逸到具有更大 Radon 测度的盆地,从而解释更好的泛化。
- Adam 的逐坐标缩放降低了逃逸集合的有效 Radon 测度,阻碍逃逸到更平坦的盆地。
- 逃逸时间 Γ 的尺度为 O(1 / (m(W) Θ(ε^{-1}))),这意味着更大的盆地(Radon 测度)更能抵抗逃逸并有利于更平坦的极小值。
- SGD 有时会出现更重的尾部指数 α,使得跳跃更大、盆地转换更快,从而促成更平坦的极小值。
- 实验验证了重尾梯度噪声并支持理论主张。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。