[论文解读] Closing the Generalization Gap of Adaptive Gradient Methods in Training Deep Neural Networks
Padam 引入了一种部分自适应的动量方法,将 Adam/Amsgrad 与 SGD-Momentum 统一,在各基准测试中实现快速收敛,同时在泛化方面与 SGD 相当。
Adaptive gradient methods, which adopt historical gradient information to automatically adjust the learning rate, despite the nice property of fast convergence, have been observed to generalize worse than stochastic gradient descent (SGD) with momentum in training deep neural networks. This leaves how to close the generalization gap of adaptive gradient methods an open problem. In this work, we show that adaptive gradient methods such as Adam, Amsgrad, are sometimes "over adapted". We design a new algorithm, called Partially adaptive momentum estimation method, which unifies the Adam/Amsgrad with SGD by introducing a partial adaptive parameter $p$, to achieve the best from both worlds. We also prove the convergence rate of our proposed algorithm to a stationary point in the stochastic nonconvex optimization setting. Experiments on standard benchmarks show that our proposed algorithm can maintain a fast convergence rate as Adam/Amsgrad while generalizing as well as SGD in training deep neural networks. These results would suggest practitioners pick up adaptive gradient methods once again for faster training of deep neural networks.
研究动机与目标
- 解释与带动量的 SGD 相比,适应性梯度方法(如 Adam 和 Amsgrad)在泛化方面的差距。
- 提出 Padam,一种部分自适应的动量方法,以在自适应性和泛化之间取得平衡。
- 给出 Padam 在随机非凸优化中的收敛性分析。
- 在标准基准数据集(CIFAR-10、ImageNet、Penn Treebank)上对 Padam 进行实证评估,以比较泛化和收敛性。
- 讨论在深度学习训练中选择优化器的实际含义。
提出的方法
- 通过在二阶矩归一化中加入部分自适应指数 p 引入 Padam,在 SGD-Momentum(p=0)和 Amsgrad(p=1/2)之间插值。
- 更新规则:m_t = β1 m_{t-1} + (1−β1) g_t;v_t = β2 v_{t-1} + (1−β2) g_t^2;v̂_t = max(v̂_{t-1}, v_t);x_{t+1} = x_t − α_t m_t / v̂_t^p。
- 给出 Padam 在随机非凸优化中的收敛性保证,其收敛速率用 E[||∇f(x_out)||^2] ≤ …(定理中的表达式)来表征。
- 解释自适应方法中的“小学习率困境”以及部分自适应如何缓解它,从而实现更大的有效学习率。
- 给出实证协议,包括超参数网格(p 在 {2/5, 1/4, 1/5, 1/8, 1/16},β1=0.9,β2=0.999/0.9999 等等)。
- 在图像分类和语言建模任务中,将 Padam 与 SGD-Momentum、Adam、Amsgrad、AdamW、Yogi、AdaBound 进行对比。
实验结果
研究问题
- RQ1部分自适应学习率方案是否能够在保持快速收敛的同时减少 Adam/Amsgrad 的泛化差距?
- RQ2Padam 是否在随机非凸优化中提供收敛性保证,且收敛率如何依赖维度和迭代次数?
- RQ3在现代架构(CIFAR-10/ImageNet、LSTMs)上的经验表现与 SGD-Momentum 及其他 Adam 变体相比如何?
- RQ4部分自适应参数 p 对早期收敛和最终泛化的影响是什么?
主要发现
| 模型/数据集 | SGD-动量 | Adam | Amsgrad | AdamW | Yogi | AdaBound | Padam |
|---|---|---|---|---|---|---|---|
| CIFAR-10 VGGNet (Test accuracy) | 93.71 | 92.21 | 92.54 | 93.54 | 92.94 | 93.28 | 93.78 |
| CIFAR-10 ResNet (Test accuracy) | 95.00 | 92.89 | 93.53 | 94.56 | 93.92 | 94.16 | 94.94 |
| CIFAR-10 WideResNet (Test accuracy) | 95.26 | 92.27 | 92.91 | 95.08 | 94.23 | 93.85 | 95.34 |
| ImageNet VGGNet (Top-1) | 73.93 | 69.52 | 69.61 | 69.89 | 71.56 | 70.00 | 74.04 |
| ImageNet VGGNet (Top-5) | 91.82 | 89.12 | 89.19 | 89.35 | 90.25 | 89.27 | 91.93 |
| ImageNet ResNet (Top-1) | 70.23 | 63.79 | 67.69 | 67.93 | 68.23 | 68.13 | 70.07 |
| Penn Treebank LSTM 2-layer (Perplexity) | 63.37 | 61.58 | 62.56 | 63.93 | 64.13 | 63.14 | 61.53 |
| Penn Treebank LSTM 3-layer (Perplexity) | 61.22 | 60.44 | 61.92 | 63.24 | 60.01 | 60.89 | 58.48 |
- 在恰当选择的 p 下,Padam 能达到像 Adam/Amsgrad 那样的快速收敛,同时泛化能力与 SGD-Momentum 相当。
- 已建立 Padam 在随机非凸优化中的收敛速率,其速率依赖于维度 d 和迭代次数 T。
- 实证结果表明 Padam 常在 CIFAR-10(VGGNet/WideResNet)上达到最佳测试准确率,在 ImageNet(VGGNet)上具有竞争力的 Top-1 准确率;在所测试的模型中,Padam 获得最佳或接近最佳的结果。
- 在 Penn Treebank 上,Padam 在比较的优化器中对 2 层和 3 层 LSTM 模型都取得最低测试困惑度。
- Padam 倾向于避免在 Adam/Amsgrad 中看到的泛化差距,并在若干基准测试中优于 AdaBound/Yogi。
- 总体而言,Padam 提供了一种实用的优化器选择,兼具快速训练和较强的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。