QUICK REVIEW

[論文レビュー] An Adaptive and Momental Bound Method for Stochastic Learning

Jianbang Ding, Xuancheng Ren|arXiv (Cornell University)|Oct 27, 2019

Stochastic Gradient Optimization Techniques参考文献 22被引用数 28

ひとこと要約

本稿では、Adamの学習率に、モーメントに基づく上界を適応的に適用することで、深層ニューラルネットワークの学習を安定化する新しい適応的最適化手法AdaModを提案する。初期学習率が極端に大きい場合のスムージングを、適応的レートの指数移動平均を用いることで実現し、学習率ウォームアップの必要性を排除するとともに、特にDenseNet やトランスフォーマーのような複雑なアーキテクチャにおいて優れた収束性と汎化性能を達成する。

ABSTRACT

Training deep neural networks requires intricate initialization and careful selection of learning rates. The emergence of stochastic gradient optimization methods that use adaptive learning rates based on squared past gradients, e.g., AdaGrad, AdaDelta, and Adam, eases the job slightly. However, such methods have also been proven problematic in recent studies with their own pitfalls including non-convergence issues and so on. Alternative variants have been proposed for enhancement, such as AMSGrad, AdaShift and AdaBound. In this work, we identify a new problem of adaptive learning rate methods that exhibits at the beginning of learning where Adam produces extremely large learning rates that inhibit the start of learning. We propose the Adaptive and Momental Bound (AdaMod) method to restrict the adaptive learning rates with adaptive and momental upper bounds. The dynamic learning rate bounds are based on the exponential moving averages of the adaptive learning rates themselves, which smooth out unexpected large learning rates and stabilize the training of deep neural networks. Our experiments verify that AdaMod eliminates the extremely large learning rates throughout the training and brings significant improvements especially on complex networks such as DenseNet and Transformer, compared to Adam. Our implementation is available at: https://github.com/lancopku/AdaMod

研究の動機と目的

Adamのような適応的最適化手法の学習初期段階で生じる極めて大きな学習率による不安定性を解消すること。
Adamにおける非収束および劣悪な汎化性能が、学習開始時における不安定で高振幅の学習率に起因することを特定すること。
ヒューリスティックなウォームアップスケジュールに依存せずに、過去の勾配の長期間メモリを提供する手法を開発すること。
特にトランスフォーマーやDenseNetのような複雑なモデルを含む多様な深層学習モデルにおいて、学習の安定性と汎化性能を向上させること。
最適化の初期学習率選択に対する感度を低減し、手動によるウォームアップチューニングの必要性を排除すること。

提案手法

Adamが計算する適応的学習率に指数移動平均（EMA）を適用し、滑らかでモーメントに基づく上界を生成する。
適応的レートのEMAを元の学習率の動的上界として用い、それらが極端に大きくなるのを防ぐ。
EMAの減衰率を制御する新しいハイパーパrameter β₃を導入し、歴史的勾配統計の長期間記憶を可能にする。
Adamの更新則を変更し、元の学習率 ηₜ を min(ηₜ, ŷₜ) に置き換える。ここで ŷₜ は ηₜ のEMAであり、更新を制限して安定化させる。
既存のAdamコンponentsを再利用することで計算効率を維持し、モーメンタル上界機構により最小限のオーバーヘッドを追加する。
手動による介入やウォームアップスケジュールを必要とせず、エンドツーエンドの学習安定性を実現する。

実験結果

リサーチクエスチョン

RQ1なぜAdamのような適応的最適化手法は、特に複雑なモデルにおいて学習初期段階で収束しなくなるのか？
RQ2学習率ウォームアップに依存せずに、初期段階における極端に大きな学習率が引き起こす不安定性を体系的かつ効果的に是正できるか？
RQ3適応的学習率にモーメントに基づく上界を導入することで、深層ネットワークの収束性と汎化性能にどのような影響を与えるか？
RQ4AdaModは、初期学習率選択に関して、どれほどハイパーパramータ感度を低減できるか？
RQ5AdaModは、追加のチューニングなしに、トランスフォーマーやDenseNetのような多様なアーキテクチャにおいて、Adamを上回るパフォーマンスを達成できるか？

主な発見

AdaModは、Adamで非収束を引き起こすとされる、最初の数ステップにおける極端に大きな学習率の発生を効果的に排除する。
IWSLT’14 De-En翻訳タスクにおいて、ウォームアップなしのAdamは訓練損失が約9.5でフラクチュエートし発散するが、AdaModは安定した収束と低い損失を達成する。
CIFAR-10におけるResNet-34では、AdaModは初期学習率（α ∈ {0.001, 0.01, 0.1}）の広い範囲で一貫したテスト精度を維持し、ロバスト性を示す。
IWSLT’14におけるTransformer-smallでは、β₃ = 0.9999のAdaModがAdamおよびウォームアップ付きAdamを上回り、最良の訓練損失と汎化性能を達成する。
複数のタスクおよびモデルにおいて、学習率ウォームアップの必要性が低減または排除され、特に複雑なアーキテクチャにおいて顕著な恩恵をもたらす。
DenseNet やトランスフォーマーのような複雑なモデルにおいて、追加のハイパーパramータチューニングなしに、ヴァナラ・Adamを大きく上回る最先端のパフォーマンスを達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。