[论文解读] Calibrating the Learning Rate for Adaptive Gradient Methods to Improve Generalization Performance.
本文提出 Sadam 和 SAMSGrad 两种自适应梯度方法,通过使用 softplus 激活函数校准自适应学习率,以减少网络各维度间的各向异性缩放。这些方法在多个深度学习任务中提升了 Adam 和 S-Momentum 的收敛速度与泛化性能,并提供了理论证明,表明 Adam 的收敛性也依赖于此前被忽视的超参数 ε。
Adaptive gradient methods (AGMs) have become popular in optimizing the nonconvex problems in deep learning area. We revisit AGMs and identify that the adaptive learning rate (A-LR) used by AGMs varies significantly across the dimensions of the problem over epochs (i.e., anisotropic scale), which may lead to issues in convergence and generalization. All existing modified AGMs actually represent efforts in revising the A-LR. Theoretically, we provide a new way to analyze the convergence of AGMs and prove that the convergence rate of extsc{Adam} also depends on its hyper-parameter $\epsilon$, which has been overlooked previously. Based on these two facts, we propose a new AGM by calibrating the A-LR with an activation ({\em softplus}) function, resulting in the extsc{Sadam} and extsc{SAMSGrad} methods \footnote{Code is available at this https URL.}. We further prove that these algorithms enjoy better convergence speed under nonconvex, non-strongly convex, and Polyak-Łojasiewicz conditions compared with extsc{Adam}. Empirical studies support our observation of the anisotropic A-LR and show that the proposed methods outperform existing AGMs and generalize even better than S-Momentum in multiple deep learning tasks.
研究动机与目标
- 为解决自适应梯度方法(AGMs)中网络各维度间自适应学习率缩放的各向异性问题,该问题会阻碍收敛与泛化。
- 对 AGM 收敛性进行理论重新分析,揭示 Adam 的收敛速度依赖于超参数 ε,该因素此前在文献中被忽略。
- 设计新型自适应优化方法,通过校准的自适应学习率纠正各向异性学习率缩放。
- 在多种深度学习任务中,相比现有 AGMs 和 S-Momentum,提升泛化性能。
- 为所提出的方法在非凸、非强凸及 Polyak-Łojasiewicz 条件下建立理论收敛保证。
提出的方法
- 提出使用 softplus 激活函数对 AGMs 中的自适应学习率进行校准,以稳定并正则化网络各维度间的学习率缩放。
- 提出 Sadam 和 SAMSGrad 两种新型自适应优化算法,将 softplus 校准的自适应学习率应用于更新规则。
- softplus 函数确保自适应学习率的平滑、非负缩放,减少各参数维度间的极端变化。
- 理论分析表明,Adam 的收敛速度依赖于 ε,该发现被重新评估并整合进新方法的设计中。
- SAMSGrad 通过集成校准的自适应学习率,对原始 SAMSGrad 算法进行改进,以在非凸和 Polyak-Łojasiewicz 条件下提升收敛性。
- 该方法在保持 Adam 计算效率的同时,通过受控的、逐维学习率自适应,提升泛化性能。
实验结果
研究问题
- RQ1自适应梯度方法中的各向异性自适应学习率缩放如何影响收敛与泛化?
- RQ2超参数 ε 对 Adam 收敛速度的理论影响是什么?是否可被用于优化改进?
- RQ3使用 softplus 函数校准自适应学习率是否能带来更好的泛化性能与更快的收敛速度?
- RQ4Sadam 和 SAMSGrad 在多种深度学习任务中与 Adam 和 S-Momentum 相比,泛化性能如何?
- RQ5在何种理论条件下(非凸、非强凸、Polyak-Łojasiewicz)所提方法能实现更快的收敛速度?
主要发现
- 实证结果证实,现有 AGMs 中存在参数维度间各向异性自适应学习率缩放,验证了本文的核心动机。
- 理论分析证明,Adam 的收敛速度依赖于超参数 ε,该因素此前在文献中被忽略。
- Sadam 和 SAMSGrad 在非凸、非强凸及 Polyak-Łojasiewicz 条件下均比 Adam 具有更快的收敛速度。
- 实证评估表明,Sadam 和 SAMSGrad 的泛化性能优于现有 AGMs,甚至在多个深度学习基准上超越 S-Momentum。
- softplus 校准有效减少了网络各维度间极端学习率变化,带来更稳定且更具泛化能力的优化过程。
- Sadam 和 SAMSGrad 的代码已公开,支持可复现性与进一步研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。