QUICK REVIEW

[论文解读] The Marginal Value of Adaptive Gradient Methods in Machine Learning

Ashia Wilson, Rebecca Roelofs|arXiv (Cornell University)|May 23, 2017

Stochastic Gradient Optimization Techniques参考文献 20被引用 552

一句话总结

自适应梯度方法（AdaGrad、RMSProp、Adam）在收敛时往往与GD/SGD得到的解大不相同，在参数过多的设置下泛化通常较差，而SGD/HB在测试性能上通常优于它们，即使训练损失相近；对Adam的性能的调参显著影响。

ABSTRACT

Adaptive optimization methods, which perform local optimization with a metric constructed from the history of iterates, are becoming increasingly popular for training deep neural networks. Examples include AdaGrad, RMSProp, and Adam. We show that for simple overparameterized problems, adaptive methods often find drastically different solutions than gradient descent (GD) or stochastic gradient descent (SGD). We construct an illustrative binary classification problem where the data is linearly separable, GD and SGD achieve zero test error, and AdaGrad, Adam, and RMSProp attain test errors arbitrarily close to half. We additionally study the empirical generalization capability of adaptive methods on several state-of-the-art deep learning models. We observe that the solutions found by adaptive methods generalize worse (often significantly worse) than SGD, even when these solutions have better training performance. These results suggest that practitioners should reconsider the use of adaptive methods to train neural networks.

研究动机与目标

动机与理解优化方法选择如何影响深度学习中的泛化。
在一个构造的二分类设置中证明自适应方法可能收敛到具有较差样本外性能的解。
在最先进的深度学习模型和任务中进行自适应与非自适应方法的实证比较。
就如何调节学习率和衰减方案以在各方法上提高性能提供实用指南。

提出的方法

用自适应度量 H_k 公式化优化并导出 AdaGrad、RMSProp 和 Adam（对角 H_k）的更新。
在一个简单的最小二乘二分类问题中，非自适应方法在 X 的行跨度内收敛到最小范数（最大间距）解，而自适应方法在某些条件下收敛到一个与 sign(X^T y) 成正比的解（引理 3.1）。
构造一个无穷维生成模型，在其中自适应方法的测试误差趋近于 1/2 而 SGD 实现零测试误差。
进行大规模深度学习实验（CIFAR-10、War and Peace 语言模型、Penn Treebank 解析）比较 SGD、Heavy Ball、AdaGrad、RMSProp 和 Adam，并进行仔细的超参数调优。
提出一个在各任务上都能良好表现的调节学习率和衰减的实用方案。

实验结果

研究问题

RQ1自适应梯度方法是否收敛到的极小值在泛化方面与非自适应方法不同？
RQ2即使训练性能相似或更好，自适应方法也会不会比 SGD/SGD 带动量泛化更差？
RQ3在深度学习任务中，自适应方法要达到良好性能需要多少超参数调优？
RQ4哪些实用的调优策略可以在多样化的深度学习任务中提升 Adam 的性能？

主要发现

自适应方法常常找到的解在泛化方面比非自适应方法差，即使训练性能可比或更好。
在所评估的模型和任务中，在相同的调参投入下，SGD/带动量的 SGD 在开发集/测试集上优于自适应方法。
自适应方法往往在初期训练进展更快，但在开发/测试性能上很早就趋于平缓。
在所有情况下，对 Adam 的初始学习率和衰减方案进行调优，相较默认设置能带来显著改进。
在一个简单构造的二分类问题中，AdaGrad/Adam/RMSProp 收敛到泛化差的解，而 SGD 实现零测试误差。
在 CIFAR-10、War and Peace 和 Penn Treebank 的实证结果表明，自适应方法的泛化通常比 SGD/HB 差，有时差异很大，尽管训练损失相同。
作者提供了一种实用的学习率调优方案，在所有方法上都能提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。