QUICK REVIEW

[論文レビュー] Weighted AdaGrad with Unified Momentum

Fangyu Zou, Li Shen|arXiv (Cornell University)|Aug 10, 2018

Stochastic Gradient Optimization Techniques参考文献 11被引用数 41

ひとこと要約

本稿では、一般化されたモーメンタムスキームと重み付き自己適応学習率を統合した、統一的で適応的な確率的最適化手法AdaUSMを提案する。非凸確率的設定下で、O(log(T)/√T) の収束速度を達成する。Adam、RMSProp、AdaGrad、AccAdaGradを一つのフレームワークで統一し、多項式的および指数的重み付けスキームを通じてそれらの挙動に関する理論的洞察を提供する。

ABSTRACT

Integrating adaptive learning rate and momentum techniques into SGD leads to a large class of efficiently accelerated adaptive stochastic algorithms, such as Nadam, AccAdaGrad, extit{etc}. In spite of their effectiveness in practice, there is still a large gap in their theories of convergences, especially in the difficult non-convex stochastic setting. To fill this gap, we propose \emph{weighted AdaGrad with unified momentum}, dubbed AdaUSM, which has the main characteristics that (1) it incorporates a unified momentum scheme which covers both the heavy ball momentum and the Nesterov accelerated gradient momentum; (2) it adopts a novel weighted adaptive learning rate that can unify the learning rates of AdaGrad, AccAdaGrad, Adam, and RMSProp. Moreover, when we take polynomially growing weights in AdaUSM, we obtain its $\mathcal{O}(\log(T)/\sqrt{T})$ convergence rate in the non-convex stochastic setting. We also show that the adaptive learning rates of Adam and RMSProp correspond to taking exponentially growing weights in AdaUSM, which thereby provides a new perspesctive for understanding Adam and RMSProp. Lastly, comparative experiments of AdaUSM against SGD with momentum, AdaGrad, AdaEMA, Adam, and AMSGrad on various deep learning models and datasets are also provided.

研究の動機と目的

非凸設定下における自己適応的確率的最適化手法の収束解析における理論的ギャップを埋めること。
Adam、RMSProp、AdaGrad、AccAdaGradといった既存の自己適応手法を、一つの最適化フレームワークに統一すること。
既存の学習率スケジュールを一般化する、新たな重み付き自己適応的学習率を導入すること。
提案手法の非凸確率的最適化における理論的収束速度保証を提供すること。
統一フレームワークを通じて、指数的重み成長の観点からAdamとRMSPropの理解を新たにすること。

提案手法

ヘビーボールおよびネステロフ加速勾配モーメンタムを包含する統一的モーメンタムスキームを提案する。
AdaGrad、AccAdaGrad、Adam、RMSPropの学習率を一般化する重み付き自己適応的学習率を導入する。
非凸確率的設定下でO(log(T)/√T) の収束を達成するために、自己適応的学習率に多項式的成長する重みを採用する。
AdamとRMSPropが、提案フレームワークにおいて指数的成長する重みに対応することを導出する。
重みパラメータを介してモーメンタムと自己適応的学習率を動的に統合する、単一の最適化アルゴリズムAdaUSMを設計する。
勾配と確率的勾配の有界性を含む、非凸確率的最適化の標準的仮定の下での収束分析を行う。

実験結果

リサーチクエスチョン

RQ1自己適応的学習率と一般化されたモーメンタムを統合できる統一的最適化フレームワークを設計できるか？
RQ2このような統一的手法が、非凸確率的最適化で達成できる理論的収束速度は何か？
RQ3Adam や RMSProp といった既存手法は、この統一フレームワークとどのように関係しているか？
RQ4異なる重み成長パターン（多項式的 vs. 指数的）が収束性と性能に与える影響は何か？
RQ5提案手法は、既存の自己適応的確率的最適化手法よりも優れているか、あるいはより良い理論的根拠を提供できるか？

主な発見

AdaUSMは、非凸確率的最適化においてO(log(T)/√T) の収束速度を達成し、自己適応手法の最高水準の既知のレートに一致する。
AdaUSMの自己適応的学習率は、単一の重み付き定式化により、AdaGrad、AccAdaGrad、Adam、RMSPropの学習率を一般化する。
AdamとRMSPropが、AdaUSMにおいて指数的成長する重みに対応することが示され、それらの挙動に対する新たな理論的解釈が得られる。
実験により、AdaUSMが複数の深層学習モデルとデータセットにおいて、SGD with momentum、AdaGrad、AdaEMA、Adam、AMSGradと同等またはそれ以上の性能を発揮することが示された。
AdaUSMにおける統一的モーメンタムスキームは、ヘビーボールおよびネステロフモーメンタムを特別なケースとして効果的に捉えることができる。
AdaUSMにおける多項式的重み成長は、実験的性能に悪影響を及げることなく、理論的収束保証を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。