[论文解读] Accelerating SGD with momentum for over-parameterized learning
本文提出 MaSS(Momentum-added Stochastic Solver),一种在过参数化、插值设置下对 Nesterov SGD 进行改进的算法,通过引入补偿项实现比标准 SGD 更快的收敛速度。MaSS 在保持与 SGD 相同收敛范围的同时,在全批量确定性极限下达到 Nesterov 加速的最优速率,并识别出三种不同的小批量缩放模式:线性、收益递减和饱和。
Nesterov SGD is widely used for training modern neural networks and other machine learning models. Yet, its advantages over SGD have not been theoretically clarified. Indeed, as we show in our paper, both theoretically and empirically, Nesterov SGD with any parameter selection does not in general provide acceleration over ordinary SGD. Furthermore, Nesterov SGD may diverge for step sizes that ensure convergence of ordinary SGD. This is in contrast to the classical results in the deterministic scenario, where the same step size ensures accelerated convergence of the Nesterov's method over optimal gradient descent. To address the non-acceleration issue, we introduce a compensation term to Nesterov SGD. The resulting algorithm, which we call MaSS, converges for same step sizes as SGD. We prove that MaSS obtains an accelerated convergence rates over SGD for any mini-batch size in the linear setting. For full batch, the convergence rate of MaSS matches the well-known accelerated rate of the Nesterov's method. We also analyze the practically important question of the dependence of the convergence rate and optimal hyper-parameters on the mini-batch size, demonstrating three distinct regimes: linear scaling, diminishing returns and saturation. Experimental evaluation of MaSS for several standard architectures of deep networks, including ResNet and convolutional networks, shows improved performance over SGD, Nesterov SGD and Adam.
研究动机与目标
- 解决在过参数化模型中,Nesterov SGD 在理论和实证上缺乏加速的问题。
- 阐明尽管在确定性设置中表现成功,Nesterov SGD 为何在过参数化、插值设置下无法实现对 SGD 的加速。
- 设计一种新算法,实现在与标准 SGD 相同步长范围内的基于动量的加速。
- 分析在加速随机优化中,收敛速率和最优超参数对小批量大小的依赖关系。
- 在深度神经网络上验证 MaSS,表明其在优化和泛化方面优于 SGD、SGD+Nesterov 和 Adam。
提出的方法
- 提出 MaSS,一种带有补偿项的两步更新规则,该补偿项用于稳定并加速收敛。
- 该算法使用随机梯度和包含补偿分量的改进动量项来更新权重,其中补偿分量与梯度成正比。
- 补偿项的推导确保了与标准 SGD 相同的步长范围内的收敛性,从而抵消了 Nesterov SGD 的不稳定性。
- 理论分析表明,MaSS 在线性设置下可实现加速收敛,并在批量大小为全批量时达到确定性 Nesterov 方法的最优收敛速率。
- 该方法识别出三种不同的小批量缩放模式:线性、收益递减和饱和,并通过解析方法推导出临界批量大小 $m_1^*$ 和 $m_2^*$。
- 实验评估使用 ResNet、CNN 和全连接网络在 MNIST 和 CIFAR-10 上进行,通过学习率衰减和重启策略以保持稳定性。
实验结果
研究问题
- RQ1为何在过参数化、插值设置下,Nesterov SGD 无法在随机设置中实现对标准 SGD 的加速?
- RQ2能否设计一种改进的动量方法,在与 SGD 相同的步长范围内同时实现收敛稳定性和加速?
- RQ3加速随机优化中的收敛速率如何依赖于小批量大小?
- RQ4收敛速度和最优超参数相对于小批量大小存在哪些不同的缩放模式?
- RQ5所提出的 MaSS 算法是否在深度网络上的优化和泛化性能上优于 SGD、SGD+Nesterov 和 Adam?
主要发现
- 在随机、过参数化设置下,Nesterov SGD 无法实现对标准 SGD 的加速,甚至在使 SGD 收敛的步长下也可能发散。
- MaSS 在与 SGD 相同的步长范围内实现了指数收敛,且在线性设置下表现出加速收敛速率。
- 在全批量确定性情况下,MaSS 退化为经典 Nesterov 方法,并与之保持已知的最优收敛速率。
- 每轮迭代的收敛速度 $s(m)$ 展现出三种不同模式:线性缩放、收益递减和饱和,临界批量大小 $m_1^*$ 和 $m_2^*$ 通过解析方法推导得出。
- 当小批量大小 $m=64$ 时,MaSS 的最优 $\tilde{\kappa}_m$ 值位于 $[2,25]$ 范围内,其中 $\alpha=0.05$ 对应 $\gamma=0.90$。
- 实验结果表明,MaSS 在使用 ResNet、CNN 和全连接架构的 CIFAR-10 和 MNIST 上,无论是训练损失降低还是测试准确率方面,均优于 SGD、SGD+Nesterov 和 Adam。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。