QUICK REVIEW

[論文レビュー] Quasi-hyperbolic momentum and Adam for deep learning

Jerry Ma, Denis Yarats|arXiv (Cornell University)|Oct 16, 2018

Stochastic Gradient Optimization Techniques参考文献 45被引用数 48

ひとこと要約

クアジ・ハイポボリックモーメンタム（QHM）とそのAdam変種（QHAdam）を導入。平凡なSGDとモーメント/Adam成分の間の単純な2項補間で、さまざまな深層学習タスクにおける安定性と性能を向上させる。

ABSTRACT

Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.

研究の動機と目的

確率的最適化におけるモーメントベースの加速を動機づけ、 SGD 更新の分散削減に対処する。
QHMを、平易な SGD とモーメントの間の単純な補間として導入し、更新の陳腐化を制御する。
QHM が多くの既存の最適化アルゴリズム（例：NAG、PID、SNV、AccSGD）を回収する、または密接に関連することを示し、その回収可能なアルゴリズム集合を特徴づける。
QHAdamをQHMに基づく Adam の派生として提案し、さまざまなタスクで実用的な利点を示す。
実務家がQHM/QHAdamを採用できるよう、実用的なガイドラインとオープンソースコードを提供する。

提案手法

QHM更新を定義する： g_{t+1} 􏰀 β g_t + (1-β) ∇L̂_t(θ_t) および θ_{t+1} 􏰀 θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}]。
ν を SGD とモーメントをブレンドする即時ディスカウントとして解釈する。
QHMをNAG、PID、SNV、AccSGD、Robust Momentum、Triple Momentumに結びつけ、回収と関係を示す。
Adamのモーメント推定量を準ハイポボリック項に置換することでQHAdamを導入し、更新規則を詳述し、ν1=ν2=1 のときにAdamを回収し、他の設定ではRMSProp/NAdamを回収することを示す。
実践的な調整の指針を提供し、収束性 / ロバスト性の含意を実証的な実験でサポートする。

実験結果

リサーチクエスチョン

RQ1QHM は標準的なモーメントや NAG と比較して、標準的な DL タスクにおける最適化効率と安定性を改善するか。
RQ2即時ディスカウント係数 ν は、確率的設定におけるモーメントの分散/陳腐化にどのように影響するか。
RQ3QHM と他の二状態最適化アルゴリズムとの関係は何か、すべてを効率的に回収できるか。
RQ4QHAdam は安定性と性能の点で、様々な領域で Adam に実務的な利点を提供するか。

主な発見

指標	QH	ベースライン
ERR	0.2128 ± 0.0005	0.2137 ± 0.0011
PPL	34.45 ± 0.17	34.92 ± 0.33
BLEU	29.45 ± 0.06 *	29.17 ± 0.07

QHM と QHAdam は、バニラのモーメント/NAG/Adam と比較して、複数のタスクで訓練と検証の性能を一貫して向上させる。
ν=0.7 および β=0.999 のデフォルト構成は、NAG や Adam の最適化パラメータよりも優れていることが多い。
画像翻訳（WMT16 EN-DE）では QHAdam が BLEU 29.45 の最先端を達成し、安定性が向上。
ケーススタディでは、画像認識、言語モデリング、強化学習、NMT において QHM/QHAdam 使用時に収束が速くなる、または性能が向上する。
QH アルゴリズムは計算コストが低く、概念的にも単純で、実用的な調整指針が提供されている。
QHM/QHAdam のコードは公開（qhoptim リポジトリ）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。