Skip to main content
QUICK REVIEW

[论文解读] Momentum-Based Variance Reduction in Non-Convex SGD

Ashok Cutkosky, Francesco Orabona|OpenBU (Boston University)|May 24, 2019
Stochastic Gradient Optimization Techniques参考文献 28被引用 31
一句话总结

本文提出 Storm,一种用于非凸随机优化的基于动量的方差缩减算法,可消除对大型“超大批量”和固定学习率的需求。通过利用自适应学习率和一种新颖的动量机制,Storm 在无需了解梯度方差或检查点梯度的情况下,实现了 $O(1/T^{1/3})$ 的最优收敛速率,显著简化了超参数调优,同时达到最先进的理论性能。

ABSTRACT

Variance reduction has emerged in recent years as a strong competitor to stochastic gradient descent in non-convex problems, providing the first algorithms to improve upon the converge rate of stochastic gradient descent for finding first-order critical points. However, variance reduction techniques typically require carefully tuned learning rates and willingness to use excessively large "mega-batches" in order to achieve their improved results. We present a new algorithm, STORM, that does not require any batches and makes use of adaptive learning rates, enabling simpler implementation and less hyperparameter tuning. Our technique for removing the batches uses a variant of momentum to achieve variance reduction in non-convex optimization. On smooth losses $F$, STORM finds a point $\boldsymbol{x}$ with $\mathbb{E}[\| abla F(\boldsymbol{x})\|]\le O(1/\sqrt{T}+σ^{1/3}/T^{1/3})$ in $T$ iterations with $σ^2$ variance in the gradients, matching the optimal rate but without requiring knowledge of $σ$.

研究动机与目标

  • 解决现有方差缩减方法在非凸优化中的局限性,特别是其对大型固定大小小批量的依赖和手动调优的学习率。
  • 开发一种实用且鲁棒的优化算法,在无需检查点梯度或梯度方差先验知识的情况下,实现最优收敛速率。
  • 通过将动量与方差缩减联系起来,为动量在非凸随机优化中的有效性提供理论依据。
  • 通过实证结果表明,所提出的算法在训练损失收敛方面优于标准基线方法(如 Adam 和 AdaGrad),且仅需极少的超参数调优。

提出的方法

  • Storm 使用一种递归动量更新机制,通过近似方差缩减,而无需显式计算检查点处的梯度。
  • 该算法采用自适应学习率调度,根据观测到的梯度噪声动态调整,从而消除了手动调优的需要。
  • 核心更新规则将随机梯度与一个跟踪历史梯度信息的动量项相结合,有效降低了更新方向中的方差。
  • 该方法通过一种新型的梯度期望范数的界进行形式化分析,利用集中不等式和幂函数的凹性。
  • 该算法设计为与标准深度学习框架兼容,实现简单,避免了复杂的批量调度。
  • 理论分析表明,Storm 对于光滑非凸函数实现了最优的收敛速率 $O(1/T^{1/3})$,且无需了解噪声水平 $\sigma^2$。

实验结果

研究问题

  • RQ1能否在非凸随机优化中正式建立动量与方差缩减之间的联系,而非仅作为启发式改进?
  • RQ2是否可能在不使用大型“超大批量”进行梯度检查点计算的情况下,实现在非凸 SGD 中的最优 $O(1/T^{1/3})$ 收敛?
  • RQ3能否有效结合自适应学习率与方差缩减,以降低深度学习优化中的超参数敏感性?
  • RQ4基于动量的方法是否在理论上具有与传统方差缩减技术(如 SVRG)相当的优势?

主要发现

  • Storm 在光滑非凸问题中寻找一阶临界点时,实现了最优的收敛速率 $O(1/T^{1/3})$,与最佳已知理论界一致。
  • 该算法在无需了解梯度方差 $\sigma^2$ 的情况下实现该速率,使其对随机梯度中未知的噪声水平具有鲁棒性。
  • Storm 不需要任何批次或检查点梯度,消除了对大型固定大小批量计算的需求,从而避免了实际部署中的性能瓶颈。
  • 在 CIFAR-10 上使用 ResNet-32 的实证结果表明,Storm 在训练损失和准确率收敛方面均快于 AdaGrad 和 Adam,且仅需一个可调超参数。
  • 该算法的更新规则在结构上与标准的带动量 SGD 相似,表明动量在实践中可能隐式执行方差缩减。
  • 理论分析确认,Storm 的收敛性依赖于 $O(1/√{T} + \sigma^{1/3}/T^{1/3})$,该表达式与最优速率一致,并能自适应未知的噪声水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。