[论文解读] Dissecting Adam: The Sign, Magnitude and Variance of Stochastic Gradients
本文将 Adam 分解为两个组成部分——基于符号的更新方向和方差自适应幅度,并对它们进行单独分析,提出 svag 和 m-svag 作为替代方案,实验表明符号在性能中占主导地位,方差自适应有助于鲁棒性。
The ADAM optimizer is exceedingly popular in the deep learning community. Often it works very well, sometimes it doesn't. Why? We interpret ADAM as a combination of two aspects: for each weight, the update direction is determined by the sign of stochastic gradients, whereas the update magnitude is determined by an estimate of their relative variance. We disentangle these two aspects and analyze them in isolation, gaining insight into the mechanisms underlying ADAM. This analysis also extends recent results on adverse effects of ADAM on generalization, isolating the sign aspect as the problematic one. Transferring the variance adaptation to SGD gives rise to a novel method, completing the practitioner's toolbox for problems where ADAM fails.
研究动机与目标
- 通过将基于符号的更新与方差自适应分离,激发并理解为什么 Adam 在不同问题上的表现会有所不同。
- 给出逐元素方差自适应因子的原理推导。
- 展示将方差自适应应用于不同更新方向如何影响收敛性和泛化能力。
- 提出方差自适应方法的实际实现方案,包括 m-svag,并将其与 Adam 和基于符号的方法进行比较。
提出的方法
- 将 Adam 解释为两个组成部分:基于符号的更新方向和方差自适应的更新幅度。
- 推导基于符号的更新和梯度更新的最优方差自适应因子。
- 引入随机方差自适应梯度(SVAG)及其动量变体(m-svag),并在标准假设下给出它们的收敛性性质。
- 通过将 v_t 和 m_t 作为梯度矩的估计来提供实用的方差估计,并纠正方差估计中的偏差。
- 给出 m-svag 的算法伪代码并讨论其超参数与实现细节。
实验结果
研究问题
- RQ1将基于符号的更新与方差自适应分离是否有助于理解 Adam 在随机优化中的行为?
- RQ2方差自适应是否可以推导为每个坐标的最优缩放因子,用于随机更新?
- RQ3在多种任务中,SVAG 和 m-svag 相对于 Adam 以及基于符号/非符号的基线表现如何?
- RQ4在自适应方法中,方差自适应对泛化有何影响?
- RQ5如何在优化过程中实际估计方差自适应并将其与动量结合?
主要发现
- 符号成分在大多数测试问题中是 Adam 表现的主导因素,尽管其有效性取决于问题。
- 方差自适应提高了性能,且如 m-svag 所示,可以应用于任何更新方向,而不仅仅是 Adam。
- 可推导出最优的逐坐标方差因子,并与 Adam 默默使用的因子保持一致,尤其是符号下降变体。
- m-svag 避免了与基于符号的自适应方法相关的一些泛化损害,同时保持或提升训练性能。
- 基于符号的方法在某些任务上可能优于非符号方法,但在其他任务上可能损害泛化,取决于问题结构。
- 在四个问题上的实验结果显示基于符号的方法与非符号方法的聚类趋势,方差自适应带来进一步增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。