QUICK REVIEW

[論文レビュー] On the Variance of the Adaptive Learning Rate and Beyond

Liyuan Liu, Haoming Jiang|arXiv (Cornell University)|Aug 8, 2019

Advanced Neural Network Applications参考文献 28被引用数 607

ひとこと要約

論文は、学習率ウォームアップが適応的最適化器（Adamなど）の初期訓練時の分散を低減することで学習率の分散を抑え、適応的学習率の分散を明示的に矯正するRectified Adam（RAdam）を理論的根拠と実証結果とともに紹介する。

ABSTRACT

The learning rate warmup heuristic achieves remarkable success in stabilizing training, accelerating convergence and improving generalization for adaptive stochastic optimization algorithms like RMSprop and Adam. Here, we study its mechanism in details. Pursuing the theory behind warmup, we identify a problem of the adaptive learning rate (i.e., it has problematically large variance in the early stage), suggest warmup works as a variance reduction technique, and provide both empirical and theoretical evidence to verify our hypothesis. We further propose RAdam, a new variant of Adam, by introducing a term to rectify the variance of the adaptive learning rate. Extensive experimental results on image classification, language modeling, and neural machine translation verify our intuition and demonstrate the effectiveness and robustness of our proposed method. All implementations are available at: https://github.com/LiyuanLucasLiu/RAdam.

研究の動機と目的

適応的最適化器の初期訓練段階における訓練不安定性の根本原因を特定する。
ウォームアップを分散削減として理論的に正当化する。
分散を矯正するAdamの分散矯正変種（RAdam）を提案し、その特性を分析する。
言語モデリング、画像分類、機械翻訳タスクにおいてRAdamを経験的に検証する。

提案手法

モメンタムと適応ステップサイズでパラメータ化された一般的な適応最適化フレームワークを提示する。
適応学習率の分散を解析し、サンプル数が小さいときに分散が大きいことを示す。
分散問題を経験的に支持するために、分散低減の2つの変種（Adam-2kとAdam-eps）を導入する。
測定されたrho_t（有効SMA長）に基づいて適応学習率の分散を正規化するための矯正因子r_tを導出する。
rho_t > 4 の場合に分散矯正項を適用し、そうでない場合は適応されていないモメンタム更新を用いるRectified Adam（RAdam）を提案する。
実用的な手順とバイアス補正を備えたRAdamのアルゴリズム（アルゴリズム2）を提供する。

実験結果

リサーチクエスチョン

RQ1初期段階の適応学習率の高分散は、Adamの不安定性を引き起こすのか、悪い局所極値へ収束するのか？
RQ2ウォームアップは適応的最適化器の分散削減として理論的に解釈できるのか？
RQ3追加のハイパーパラメータを調整せずに適応学習率を安定化させる principled な矯正を設計できるのか？
RQ4提案されたRAdamは、言語モデリング・画像分類・ニューラル機械翻訳において、素のAdamおよびウォームアップベースの手法と比較してどう性能するのか？

主な発見

Image分類: CIFAR10とImageNetは、RAdamが素のAdamよりも精度と訓練ダイナミクスの両方で優れていることを示す。
言語モデリング: One Billion Wordは、RAdamがAdamに対して収束速度と最終性能を改善することを示す。
NMT: RAdamは複数データセットで、ウォームアップを用いたAdamと比較してBLEUスコアが同等以上を達成する。
RAdamは初期学習率の変動に対して頑健な性能を示し、いくつかの設定でAdamやSGDよりも優れた安定性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。