QUICK REVIEW

[論文レビュー] A Sufficient Condition for Convergences of Adam and RMSProp

Fangyu Zou, Li Shen|arXiv (Cornell University)|Nov 23, 2018

Stochastic Gradient Optimization Techniques参考文献 22被引用数 28

ひとこと要約

本稿は、非凸確率的最適化におけるAdamとRMSPropのグローバル収束を保証する、新たな容易に検証可能な十分条件を提案する。この条件は、基本学習率と履歴2次モーメントの組み合わせにのみ依存しており、学習率の段階的減少やミニバッチサイズの調整を必要としない。また、Adamを指数移動平均モーメンタムを伴う重み付きAdaGradとして再解釈することで、発散の原因を新たに解釈する。

ABSTRACT

Adam and RMSProp are two of the most influential adaptive stochastic algorithms for training deep neural networks, which have been pointed out to be divergent even in the convex setting via a few simple counterexamples. Many attempts, such as decreasing an adaptive learning rate, adopting a big batch size, incorporating a temporal decorrelation technique, seeking an analogous surrogate, etc., have been tried to promote Adam/RMSProp-type algorithms to converge. In contrast with existing approaches, we introduce an alternative easy-to-check sufficient condition, which merely depends on the parameters of the base learning rate and combinations of historical second-order moments, to guarantee the global convergence of generic Adam/RMSProp for solving large-scale non-convex stochastic optimization. Moreover, we show that the convergences of several variants of Adam, such as AdamNC, AdaEMA, etc., can be directly implied via the proposed sufficient condition in the non-convex setting. In addition, we illustrate that Adam is essentially a specifically weighted AdaGrad with exponential moving average momentum, which provides a novel perspective for understanding Adam and RMSProp. This observation coupled with this sufficient condition gives much deeper interpretations on their divergences. At last, we validate the sufficient condition by applying Adam and RMSProp to tackle a certain counterexample and train deep neural networks. Numerical results are exactly in accord with our theoretical analysis.

研究の動機と目的

AdamとRMSPropが実験的に成功しているにもかかわらず、非凸設定で既知の発散問題が生じる理由を解決すること。
学習率の段階的減少やミニバッチサイズの調整を必要とせず、グローバル収束を保証する単純で検証可能な条件を同定すること。
複数のAdam/RMSPropの変種の収束行動を、共通の理論的枠組みで統一し説明すること。
AdamとRMSPropがなぜ発散するのかを、指数移動平均モーメンタムを伴う重み付きAdaGradとして再解釈することで、より深い洞察を提供すること。

提案手法

Adam/RMSPropにおける履歴2次モーメントの組み合わせと基本学習率にのみ依存する十分収束条件を提案する。
Adamを特定の重み付きAdaGradと指数移動平均モーメンタムを組み合わせたものとして再解釈し、そのダイナミクスに対する新たな視点を提供する。
提案された十分条件を用いて、非凸確率的設定下でのAdamNCやAdaEMAなどの複数のAdam変種の収束を証明する。
異なるパラメータ設定下での一般化Adamアルゴリズムにおける非漸近的収束レートを導出する。パラメータの指数に応じて、O(log(T)/√T)、O(1/T^{1-s})、およびO(T^{-r/2})のレートが得られることを示す。
反例とディープラーニングタスク（MNIST、CIFAR-100）における数値的検証を通じて、理論的予測と実際のトレーニング行動の整合性を確認する。

実験結果

リサーチクエスチョン

RQ1非凸確率的最適化におけるAdamとRMSPropのグローバル収束を保証する十分条件は何か？
RQ2AdamとRMSPropがなぜ発散することがあるのか。その背後にあるメカニズムは何か？
RQ3複数のAdamタイプの変種の収束を、同一の理論的条件で統一できるか？
RQ4Adamを指数移動平均モーメンタムを伴う重み付きAdaGradとして再解釈することで、その収束または発散をどのように説明できるか？
RQ5提案された条件の下で、異なるパラメータ設定に対して得られる非漸近的収束レートは何か？

主な発見

提案された十分条件は、非凸確率的最適化における一般化AdamとRMSPropのグローバル収束を保証する。この条件は、基本学習率と履歴2次モーメントの組み合わせにのみ依存する。
この条件は、学習率とモーメンタム更新のバランスが崩れることに起因する発散を説明する。特に、逆学習率の差が非正になる場合にその失敗が顕在化する。
AdamNC、AdaEMA、その他の変種の収束は、提案された条件から直接的に導かれる。これにより、統一された理論的基盤が提供される。
反例とディープニューラルネットワーク（LeNet on MNIST、ResNet-18 on CIFAR-100）における数値実験により、実際のトレーニング行動が理論的収束レートと整合することが確認された。
パラメータの重みがt^rで増加する場合（r ≥ 0）、基本学習率がα_t = η/√tのとき、一般化Adamの収束レートはO(log(T)/√T)であることが示された。rが大きいほど収束が速くなる。
本稿は、Adamが本質的に指数移動平均モーメンタムを伴う重み付きAdaGradであることを確立し、収束行動や失敗モードを明確にする新たな解釈を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。