QUICK REVIEW
[论文解读] Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks
Boris Ginsburg, Patrice Castonguay|arXiv (Cornell University)|May 27, 2019
Stochastic Gradient Optimization Techniques参考文献 39被引用 88
一句话总结
NovoGrad 是一种自适应的 SGD 方法,使用逐层梯度规范化和解耦权重衰减,在视觉、语音、翻译和语言模型等任务中,与带动量的 SGD 和 Adam/AdamW 相当甚至更好,对学习率和初始化具有鲁棒性,且比 Adam 的内存占用小一半。
ABSTRACT
We propose NovoGrad, an adaptive stochastic gradient descent method with layer-wise gradient normalization and decoupled weight decay. In our experiments on neural networks for image classification, speech recognition, machine translation, and language modeling, it performs on par or better than well tuned SGD with momentum and Adam or AdamW. Additionally, NovoGrad (1) is robust to the choice of learning rate and weight initialization, (2) works well in a large batch setting, and (3) has two times smaller memory footprint than Adam.
研究动机与目标
- 开发一个在图像分类、语音识别、机器翻译和语言模型等任务上都表现出色的单一优化器。
- 提高对学习率和权重初始化的鲁棒性。
- 在保持性能的同时,降低与 Adam 相比的内存占用。
- 增强正则化并支持大批量训练场景。
提出的方法
- 引入逐层的二阶矩并通过逐层范数对梯度进行归一化。
- 使用梯度除以逐层二阶矩来计算一阶矩,并在更新一阶矩之前,将解耦的权重衰减加入到归一化后的梯度中。
- 使用带动量的 SGD 风格的第一矩来更新权值,并带有解耦的权重衰减项。
- 讨论稳定性提升,并在凸性类似的设置中给出与 AMS-Grad 的联系。
实验结果
研究问题
- RQ1在多种深度学习任务中,NovoGrad 是否能达到甚至超过带动量的 SGD 与 Adam/AdamW 的水平?
- RQ2逐层梯度归一化是否比逐元素归一化对学习率和初始化更鲁棒?
- RQ3解耦权重衰减是否能改善 NovoGrad 的正则化与泛化?
- RQ4在大批量训练条件下,NovoGrad 的表现相对于现有优化器如何?
- RQ5相对于 Adam,NovoGrad 提供了哪些内存与计算上的优势?
主要发现
- NovoGrad 在 ImageNet、WMT’14 英文–德文翻译、LibriSpeech 和 WikiText-103 语言建模上与带动量的 SGD 和 Adam/AdamW 相当或超越。
- NovoGrad 对学习率和权重初始化具有鲁棒性,在许多设置中无需学习率预热也能良好表现。
- 在大批量图像和语音任务中,NovoGrad 在没有额外技巧的情况下达到有竞争力或更优的精度或 WER。
- NovoGrad 的内存占用大约是 Adam 的一半,有助于大规模模型训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。