Skip to main content
QUICK REVIEW

[论文解读] Decaying momentum helps neural network training

John Chen, Anastasios Kyrillidis|arXiv (Cornell University)|Sep 25, 2019
Advanced Neural Network Applications参考文献 78被引用 12
一句话总结

本文提出了一种名为Decaying Momentum(Demon)的简单而有效的规则,该规则在自适应优化器(如Adam和动量SGD)中逐步降低过去梯度的影响。通过随时间衰减动量,Demon提升了训练的稳定性和性能,在结果上可与学习率衰减调度相媲美,且对超参数调优的敏感性显著降低。

ABSTRACT

Momentum is a simple and popular technique in deep learning for gradient-based optimizers. We propose a decaying momentum (Demon) rule, motivated by decaying the total contribution of a gradient to all future updates. Applying Demon to Adam leads to significantly improved training, notably competitive to momentum SGD with learning rate decay, even in settings in which adaptive methods are typically non-competitive. Similarly, applying Demon to momentum SGD improves over momentum SGD with learning rate decay in most cases. Notably, Demon momentum SGD is observed to be significantly less sensitive to parameter tuning than momentum SGD with learning rate decay schedule, critical to training deep neural networks in practice.Results are demonstrated across a variety of settings and architectures, including image classification, generative models, and language models. Demon is trivial to implement, easy to tune, and incurs limited extra computational overhead, compared to the vanilla counterparts. Code is readily available.

研究动机与目标

  • 解决自适应优化器(如Adam)中常见的泛化性能差和对超参数敏感的问题。
  • 在不依赖学习率衰减调度的前提下,提升深度神经网络的训练稳定性和收敛性。
  • 开发一种简单而有效的动量衰减机制,以增强Adam和动量SGD的性能。
  • 减少深度学习优化中对大量超参数调优的需求。

提出的方法

  • 提出一种衰减动量规则,随时间逐步降低过去梯度的贡献,灵感来源于历史梯度影响力的减弱。
  • 通过引入随时间变化的动量系数(单调衰减)来修改Adam和动量SGD中的动量更新规则。
  • 将衰减动量应用于Adam中的第一阶和第二阶矩,确保较旧的梯度对后续更新的影响减小。
  • 采用简单的衰减调度(如指数衰减或多项式衰减)作为动量系数,便于实现和调优。
  • 以极低的计算开销将衰减动量集成到现有优化器中。
  • 在多种架构和任务上评估该方法,包括图像分类、生成模型和语言模型。

实验结果

研究问题

  • RQ1衰减动量能否提升Adam等自适应优化器的泛化性能?
  • RQ2与学习率衰减相比,衰减动量是否能降低对超参数调优的敏感性?
  • RQ3Demon能否在不增加计算成本的前提下提升深度神经网络的训练稳定性和收敛性?
  • RQ4Demon在多种架构和任务(包括视觉和语言模型)上的表现如何?

主要发现

  • Demon在Adam中提升了训练性能,其结果可与使用学习率衰减的动量SGD相媲美。
  • Demon动量SGD在大多数测试设置中优于使用学习率衰减的标准动量SGD。
  • Demon动量SGD相比使用学习率衰减的动量SGD,对超参数调优的敏感性显著降低。
  • 该方法计算开销极小,实现起来极为简单,相较于基线优化器更具优势。
  • Demon在图像分类、生成模型和语言模型等任务上均表现出一致的性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。