QUICK REVIEW
[论文解读] Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization
Aaron Defazio, Samy Jelassi|arXiv (Cornell University)|Jan 26, 2021
Stochastic Gradient Optimization Techniques参考文献 27被引用 39
一句话总结
MADGRAD 引入了一个带动量的自适应双端平均梯度方法,结合 AdaGrad 风格的自适应性与动量,在凸问题上实现强性能和收敛保证,同时在视觉和NLP任务上也在深度学习领域取得竞争力的结果。
ABSTRACT
We introduce MADGRAD, a novel optimization method in the family of AdaGrad adaptive gradient methods. MADGRAD shows excellent performance on deep learning optimization problems from multiple fields, including classification and image-to-image tasks in vision, and recurrent and bidirectionally-masked models in natural language processing. For each of these tasks, MADGRAD matches or outperforms both SGD and ADAM in test set performance, even on problems for which adaptive methods normally perform poorly.
研究动机与目标
- 激发并设计一种优化方法,将自适应性与深度学习的鲁棒泛化相结合。
- 通过在 AdaGrad 的双平均基础上,加入动量以及立方根分母以实现稳定、自适应更新,来发展 MADGRAD。
- 在凸性下提供理论收敛性保证,并在视觉与NLP任务中展示经验性能。
提出的方法
- 采用 AdaGrad 的双平均形式,而非常见的镜像下降形式。
- 将近端函数以初始点为中心,以避免神经网络训练中的发散行为。
- 引入分阶段、前向加权的梯度序列并使用 lambda_k 缩放以保持有效步长。
- 通过移动平均/线内平均方案引入动量,与 SGD 变体中的动量概念保持一致。
- 在自适应缩放中使用立方根分母,以维持适当的有效步长并提高稳定性。
- 在凸性下给出一个收敛定理,其界量与关键问题常数成比例。
实验结果
研究问题
- RQ1MADGRAD 是否能够在保持收敛性保证的同时,在标准深度学习基准测试中达到最先进或具竞争力的测试表现?
- RQ2双重平均、动量和立方根自适应缩放如何相互作用,影响随机优化中的收敛性与泛化?
- RQ3MADGRAD 与已建立的优化器如 Adam、AdaGrad、以及带动量的 SGD 的理论与经验权衡是什么?
主要发现
- MADGRAD 在各类深度学习任务中,提供与 SGD 和 ADAM 相匹配或更优的测试集性能。
- 该方法在所提出更新下,在凸性条件下实现了强收敛保证。
- 当不使用动量时,MADGRAD 对稀疏问题仍然有效,解决了某些自适应方法的局限性。
- 自适应缩放中的立方根分母有助于维持合适的有效步长并提高经验稳定性。
- 与 AMSGrad 类 Adam 的界限相比,MADGRAD 避免了一些它们展现出的有问题的依赖关系和对数因子。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。