[論文レビュー] Quasi-hyperbolic momentum and Adam for deep learning
クアジ・ハイポボリックモーメンタム(QHM)とそのAdam変種(QHAdam)を導入。平凡なSGDとモーメント/Adam成分の間の単純な2項補間で、さまざまな深層学習タスクにおける安定性と性能を向上させる。
Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.
研究の動機と目的
- 確率的最適化におけるモーメントベースの加速を動機づけ、 SGD 更新の分散削減に対処する。
- QHMを、平易な SGD とモーメントの間の単純な補間として導入し、更新の陳腐化を制御する。
- QHM が多くの既存の最適化アルゴリズム(例:NAG、PID、SNV、AccSGD)を回収する、または密接に関連することを示し、その回収可能なアルゴリズム集合を特徴づける。
- QHAdamをQHMに基づく Adam の派生として提案し、さまざまなタスクで実用的な利点を示す。
- 実務家がQHM/QHAdamを採用できるよう、実用的なガイドラインとオープンソースコードを提供する。
提案手法
- QHM更新を定義する: g_{t+1} β g_t + (1-β) ∇L̂_t(θ_t) および θ_{t+1} θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}]。
- ν を SGD とモーメントをブレンドする即時ディスカウントとして解釈する。
- QHMをNAG、PID、SNV、AccSGD、Robust Momentum、Triple Momentumに結びつけ、回収と関係を示す。
- Adamのモーメント推定量を準ハイポボリック項に置換することでQHAdamを導入し、更新規則を詳述し、ν1=ν2=1 のときにAdamを回収し、他の設定ではRMSProp/NAdamを回収することを示す。
- 実践的な調整の指針を提供し、収束性 / ロバスト性の含意を実証的な実験でサポートする。
実験結果
リサーチクエスチョン
- RQ1QHM は標準的なモーメントや NAG と比較して、標準的な DL タスクにおける最適化効率と安定性を改善するか。
- RQ2即時ディスカウント係数 ν は、確率的設定におけるモーメントの分散/陳腐化にどのように影響するか。
- RQ3QHM と他の二状態最適化アルゴリズムとの関係は何か、すべてを効率的に回収できるか。
- RQ4QHAdam は安定性と性能の点で、様々な領域で Adam に実務的な利点を提供するか。
主な発見
| 指標 | QH | ベースライン |
|---|---|---|
| ERR | 0.2128 ± 0.0005 | 0.2137 ± 0.0011 |
| PPL | 34.45 ± 0.17 | 34.92 ± 0.33 |
| BLEU | 29.45 ± 0.06 * | 29.17 ± 0.07 |
- QHM と QHAdam は、バニラのモーメント/NAG/Adam と比較して、複数のタスクで訓練と検証の性能を一貫して向上させる。
- ν=0.7 および β=0.999 のデフォルト構成は、NAG や Adam の最適化パラメータよりも優れていることが多い。
- 画像翻訳(WMT16 EN-DE)では QHAdam が BLEU 29.45 の最先端を達成し、安定性が向上。
- ケーススタディでは、画像認識、言語モデリング、強化学習、NMT において QHM/QHAdam 使用時に収束が速くなる、または性能が向上する。
- QH アルゴリズムは計算コストが低く、概念的にも単純で、実用的な調整指針が提供されている。
- QHM/QHAdam のコードは公開(qhoptim リポジトリ)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。