Skip to main content
QUICK REVIEW

[論文レビュー] Quasi-hyperbolic momentum and Adam for deep learning

Jerry Ma, Denis Yarats|arXiv (Cornell University)|Oct 16, 2018
Stochastic Gradient Optimization Techniques参考文献 45被引用数 48
ひとこと要約

クアジ・ハイポボリックモーメンタム(QHM)とそのAdam変種(QHAdam)を導入。平凡なSGDとモーメント/Adam成分の間の単純な2項補間で、さまざまな深層学習タスクにおける安定性と性能を向上させる。

ABSTRACT

Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.

研究の動機と目的

  • 確率的最適化におけるモーメントベースの加速を動機づけ、 SGD 更新の分散削減に対処する。
  • QHMを、平易な SGD とモーメントの間の単純な補間として導入し、更新の陳腐化を制御する。
  • QHM が多くの既存の最適化アルゴリズム(例:NAG、PID、SNV、AccSGD)を回収する、または密接に関連することを示し、その回収可能なアルゴリズム集合を特徴づける。
  • QHAdamをQHMに基づく Adam の派生として提案し、さまざまなタスクで実用的な利点を示す。
  • 実務家がQHM/QHAdamを採用できるよう、実用的なガイドラインとオープンソースコードを提供する。

提案手法

  • QHM更新を定義する: g_{t+1} 􏰀 β g_t + (1-β) ∇L̂_t(θ_t) および θ_{t+1} 􏰀 θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}]。
  • ν を SGD とモーメントをブレンドする即時ディスカウントとして解釈する。
  • QHMをNAG、PID、SNV、AccSGD、Robust Momentum、Triple Momentumに結びつけ、回収と関係を示す。
  • Adamのモーメント推定量を準ハイポボリック項に置換することでQHAdamを導入し、更新規則を詳述し、ν1=ν2=1 のときにAdamを回収し、他の設定ではRMSProp/NAdamを回収することを示す。
  • 実践的な調整の指針を提供し、収束性 / ロバスト性の含意を実証的な実験でサポートする。

実験結果

リサーチクエスチョン

  • RQ1QHM は標準的なモーメントや NAG と比較して、標準的な DL タスクにおける最適化効率と安定性を改善するか。
  • RQ2即時ディスカウント係数 ν は、確率的設定におけるモーメントの分散/陳腐化にどのように影響するか。
  • RQ3QHM と他の二状態最適化アルゴリズムとの関係は何か、すべてを効率的に回収できるか。
  • RQ4QHAdam は安定性と性能の点で、様々な領域で Adam に実務的な利点を提供するか。

主な発見

指標QHベースライン
ERR0.2128 ± 0.00050.2137 ± 0.0011
PPL34.45 ± 0.1734.92 ± 0.33
BLEU29.45 ± 0.06 *29.17 ± 0.07
  • QHM と QHAdam は、バニラのモーメント/NAG/Adam と比較して、複数のタスクで訓練と検証の性能を一貫して向上させる。
  • ν=0.7 および β=0.999 のデフォルト構成は、NAG や Adam の最適化パラメータよりも優れていることが多い。
  • 画像翻訳(WMT16 EN-DE)では QHAdam が BLEU 29.45 の最先端を達成し、安定性が向上。
  • ケーススタディでは、画像認識、言語モデリング、強化学習、NMT において QHM/QHAdam 使用時に収束が速くなる、または性能が向上する。
  • QH アルゴリズムは計算コストが低く、概念的にも単純で、実用的な調整指針が提供されている。
  • QHM/QHAdam のコードは公開(qhoptim リポジトリ)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。