[论文解读] Accelerating Stochastic Training for Over-parametrized Learning
本文提出 MaSS,一种改进的 Nesterov SGD,引入补偿项以确保在与标准 SGD 相同的学习率下实现收敛,同时在所有小批量大小下均实现加速收敛。在线性设定下,MaSS 在全批量情况下达到最优的 Nesterov 加速率,并在深度网络实验中优于 SGD、Nesterov SGD 和 Adam。
Nesterov SGD is widely used for training modern neural networks and other machine learning models. Yet, its advantages over SGD have not been theoretically clarified. Indeed, as we show in our paper, both theoretically and empirically, Nesterov SGD with any parameter selection does not in general provide acceleration over ordinary SGD. Furthermore, Nesterov SGD may diverge for step sizes that ensure convergence of ordinary SGD. This is in contrast to the classical results in the deterministic scenario, where the same step size ensures accelerated convergence of the Nesterov's method over optimal gradient descent. To address the non-acceleration issue, we introduce a compensation term to Nesterov SGD. The resulting algorithm, which we call MaSS, converges for same step sizes as SGD. We prove that MaSS obtains an accelerated convergence rates over SGD for any mini-batch size in the linear setting. For full batch, the convergence rate of MaSS matches the well-known accelerated rate of the Nesterov's method. We also analyze the practically important question of the dependence of the convergence rate and optimal hyper-parameters on the mini-batch size, demonstrating three distinct regimes: linear scaling, diminishing returns and saturation. Experimental evaluation of MaSS for several standard architectures of deep networks, including ResNet and convolutional networks, shows improved performance over SGD, Nesterov SGD and Adam.
研究动机与目标
- 解决 Nesterov SGD 在性能上理论与实证不一致的问题,其在确定性设定下表现成功,但在随机设置下无法实现加速,甚至可能发散。
- 阐明为何 Nesterov SGD 在随机过参数化设定下无法提供加速,与经典确定性结果相反。
- 设计一种改进算法,保留 Nesterov 动量的优势,同时在随机训练中确保收敛与加速。
- 分析收敛速率与最优超参数对小批量大小的依赖关系,揭示三种不同的缩放模式。
- 在标准深度学习架构上实证验证 MaSS,证明其在训练精度和泛化能力上持续优于 SGD、Nesterov SGD 和 Adam。
提出的方法
- 为 Nesterov SGD 引入补偿项,以校正动量更新并稳定在与标准 SGD 相同学习率下的收敛性。
- 将 MaSS 制定为一种改进的更新规则,结合 Nesterov 动量与基于当前和历史迭代点梯度差的校正项。
- 证明 MaSS 在线性模型设定下可实现加速收敛速率,在全批量情况下达到最优 Nesterov 加速率。
- 分析收敛速率与最优步长对小批量大小的依赖关系,识别出线性缩放、收益递减与饱和三种模式。
- 在标准深度学习框架中实现 MaSS,并在 ResNet 和卷积网络上使用标准超参数设置进行评估。
实验结果
研究问题
- RQ1为何 Nesterov SGD 在随机过参数化学习中无法提供加速,尽管其在确定性优化中表现成功?
- RQ2能否构造一种 Nesterov SGD 的改进版本,使其在与 SGD 相同的学习率下确保收敛,同时实现加速?
- RQ3MaSS 的收敛速率与最优超参数选择如何随小批量大小在不同模式下变化?
- RQ4MaSS 在标准深度学习基准测试中是否在实践中优于 SGD、Nesterov SGD 和 Adam?
主要发现
- MaSS 在任意小批量大小下均实现对 SGD 的加速收敛速率,全批量下的收敛速率与经典 Nesterov 加速率一致。
- 无论参数如何选择,Nesterov SGD 通常无法在 SGD 基础上实现加速,且在确保 SGD 收敛的学习率下可能发散。
- 所提出的补偿项使 MaSS 稳定训练,并在与标准 SGD 相同的学习率下实现收敛。
- 收敛速率与最优步长对小批量大小的依赖关系表现出三种不同模式:线性缩放、收益递减与饱和。
- 在 ResNet 和卷积网络上的实证结果表明,MaSS 在训练精度与泛化能力上均优于 SGD、Nesterov SGD 和 Adam。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。