QUICK REVIEW

[論文レビュー] On the Convergence of AdaGrad with Momentum for Training Deep Neural Networks

Fangyu Zou, Li Shen|arXiv (Cornell University)|Aug 10, 2018

Stochastic Gradient Optimization Techniques被引用数 17

ひとこと要約

本稿では、重み付き適応的学習率と一般化されたモーメンタムスキームを統合した、統一的で適応的な確率的最適化手法AdaUSMを提案する。この手法は、ヘヴィーボール法とネステロフのモーメンタムを包含する。非凸確率的設定下で、O(log(T)/√T) の収束速度を確立し、Adam や RMSProp を指数関数的に増加する重みを持つ特別なケースとして理論的に解釈する。

ABSTRACT

Integrating adaptive learning rate and momentum techniques into SGD leads to a large class of efficiently accelerated adaptive stochastic algorithms, such as Nadam, AccAdaGrad, extit{etc}. In spite of their effectiveness in practice, there is still a large gap in their theories of convergences, especially in the difficult non-convex stochastic setting. To fill this gap, we propose \emph{weighted AdaGrad with unified momentum}, dubbed AdaUSM, which has the main characteristics that (1) it incorporates a unified momentum scheme which covers both the heavy ball momentum and the Nesterov accelerated gradient momentum; (2) it adopts a novel weighted adaptive learning rate that can unify the learning rates of AdaGrad, AccAdaGrad, Adam, and RMSProp. Moreover, when we take polynomially growing weights in AdaUSM, we obtain its $\mathcal{O}(\log(T)/\sqrt{T})$ convergence rate in the non-convex stochastic setting. We also show that the adaptive learning rates of Adam and RMSProp correspond to taking exponentially growing weights in AdaUSM, which thereby provides a new perspesctive for understanding Adam and RMSProp. Lastly, comparative experiments of AdaUSM against SGD with momentum, AdaGrad, AdaEMA, Adam, and AMSGrad on various deep learning models and datasets are also provided.

研究の動機と目的

非凸深層学習設定における適応的確率的最適化手法の収束解析における理論的ギャップを埋める。
重み付き適応的学習率と一般化されたモーメンタムスキームを統合した、AdaGrad、Adam、RMSProp などの既存手法を統一するフレームワークを構築する。
主な適応的最適化手法の学習率スケジュールを一般化する重み付き適応的学習率メカニズムを設計する。
提案手法の非凸確率的最適化における理論的収束速度を確立する。
Adam や RMSProp が、指数関数的に増加する重みを持つ提案フレームワークの特別なケースとして、新たな理論的解釈を提供する。

提案手法

重み付き適応的学習率と一般化されたモーメンタムスキームを統合した、統一的最適化フレームワーク AdaUSM を提案する。
ヘヴィーボール法とネステロフ加速勾配モーメンタムの両方を特別なケースとして含む、統一されたモーメンタム定式化を導入する。
AdaGrad、AccAdaGrad、Adam、RMSProp の学習率を一般化する重み付き適応的学習率を設計する。
AdaUSM において多項式的増加する重みを用いることで、非凸確率的設定下で O(log(T)/√T) の収束速度を導出する。
Adam と RMSProp が、AdaUSM において指数関数的に増加する重みに対応することを示し、これらの手法に対する新たな理論的視点を提供する。
AdaUSM をさまざまな深層学習モデルとデータセットに対して実装・評価し、SGD with momentum、AdaGrad、AdaEMA、Adam、AMSGrad と比較する。

実験結果

リサーチクエスチョン

RQ1適応的学習率と一般化されたモーメンタムを統合した統一的最適化フレームワークを開発可能か？
RQ2提案手法の非凸確率的最適化設定下での理論的収束速度は何か？
RQ3特定の重み増加パターン下で、既存手法（Adam や RMSProp）が提案フレームワークとどのように関係するか？
RQ4提案手法は、最先端の適応的最適化手法と比較して、より優れた収束性または汎化性能を達成するか？
RQ5重み付き適応的学習率の観点から、Adam や RMSProp の理論的挙動をより良く理解できるか？

主な発見

多項式的増加する重みを用いることで、AdaUSM は非凸確率的設定下で O(log(T)/√T) の収束速度を達成する。
Adam と RMSProp の適応的学習率は、指数関数的に増加する重みを持つ AdaUSM の特別なケースとして示された。
AdaUSM の統一されたモーメンタムスキームは、ヘヴィーボール法とネステロフモーメンタムを極限ケースとして含む。
比較実験により、AdaUSM が複数の深層学習モデルとデータセットにおいて、SGD with momentum、AdaGrad、AdaEMA、Adam、AMSGrad と同等またはそれ以上の性能を示した。
理論的枠組みにより、Adam や RMSProp の実用的挙動と収束性に対する新たな洞察が得られた。
重み付き適応的学習率メカニズムは、複数の適応的最適化手法における学習率スケジュールを効果的に一般化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。