QUICK REVIEW

[論文レビュー] The Marginal Value of Adaptive Gradient Methods in Machine Learning

Ashia Wilson, Rebecca Roelofs|arXiv (Cornell University)|May 23, 2017

Stochastic Gradient Optimization Techniques参考文献 20被引用数 552

ひとこと要約

適応的勾配法（AdaGrad、RMSProp、Adam）は、しばしば GD/SGD とは非常に異なる解に収束し、過parameterized設定で一般化が劣る。一方で SGD/HB は、同程度の訓練損失でもテスト性能で一般的に優れており、Adam の性能はハイパーパラメータの調整で大きく影響を受けうる。

ABSTRACT

Adaptive optimization methods, which perform local optimization with a metric constructed from the history of iterates, are becoming increasingly popular for training deep neural networks. Examples include AdaGrad, RMSProp, and Adam. We show that for simple overparameterized problems, adaptive methods often find drastically different solutions than gradient descent (GD) or stochastic gradient descent (SGD). We construct an illustrative binary classification problem where the data is linearly separable, GD and SGD achieve zero test error, and AdaGrad, Adam, and RMSProp attain test errors arbitrarily close to half. We additionally study the empirical generalization capability of adaptive methods on several state-of-the-art deep learning models. We observe that the solutions found by adaptive methods generalize worse (often significantly worse) than SGD, even when these solutions have better training performance. These results suggest that practitioners should reconsider the use of adaptive methods to train neural networks.

研究の動機と目的

深層学習における最適化手法の選択が一般化に与える影響を動機づけ、理解する。
適応的手法が、構築された二値分類設定においてアウト・オブ・サンプル性能の悪い解に収束し得ることを実証する。
最先端の深層学習モデルとタスクを横断して、適応的手法と非適応的手法を実証的に比較する。
学習率と減衰スキームの調整が、手法を問わず性能を向上させる具体的な実践案を提供する。

提案手法

適応的測度 H_k を用いた最適化を定式化し、AdaGrad、RMSProp、Adam の更新式（対角成分 H_k）を導出する。
単純な最小二乗型の二値分類において、非適応的手法は X の行スパン内の最小ノルム解（最大マージン解）へ収束する一方、適応的手法はある条件下で sign(X^T y) に比例する解へ収束する（補助定理 3.1）。
適応的方法が訓練誤差を抑えつつも検証・テスト誤差が 1/2 に近づくような無限次元の生成モデルを構築し、SGD はゼロのテスト誤差を達成する。
広範な深層学習実験（CIFAR-10、War and Peace 言語モデル、Penn Treebank 解析）を通じて、SGD、Heavy Ball、AdaGrad、RMSProp、Adam を慎重なハイパーパラメータ調整とともに比較する。
学習率と減衰の初期設定を調整する実践的スキームを提案し、タスクを跨いで良好な性能を発揮させる。

実験結果

リサーチクエスチョン

RQ1適応的勾配法は、非適応的手法とは一般化の仕方が異なる极小化解へ収束するのか？
RQ2適応的手法は、訓練性能が同等または高い場合でも SGD/SGD with momentum より一般化が悪いのか？
RQ3適応的手法を深層学習タスクで良好に機能させるには、どれだけのハイパーパラメータ調整が必要か？
RQ4Adam の性能を多様な深層学習タスクで改善する実践的な調整戦略とは何か？

主な発見

適応的手法は、訓練性能が同等または良好でも非適応的方法より一般化が悪い解を見つけることが多い。
評価されたモデルとタスク全体で、同じ調整努力を用いた場合、SGD/SGD with momentum は適応的方法より開発セット・テストセットで優れていた。
適応的手法は初期の訓練進行が速い傾向を示すが、開発セット/テスト性能は早期に停滞しがち。
Adam の初期学習率と減衰スキームを調整すると、すべてのケースでデフォルト設定より有意な改善が得られる。
単純に構成された二値分類問題では、AdaGrad/Adam/RMSProp は一般化が悪い解へ収束する一方、SGD はゼロのテスト誤差を達成する。
CIFAR-10、War and Peace、Penn Treebank における経験的結果は、適応的手法が SGD/HB より一般化が劣る場合が多く、時にはかなり劣ることを示す。
著者は、すべての手法で性能を改善する実用的な学習率調整スキームを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。