Skip to main content
QUICK REVIEW

[論文レビュー] Closing the Generalization Gap of Adaptive Gradient Methods in Training Deep Neural Networks

Jinghui Chen, Dongruo Zhou|arXiv (Cornell University)|Jun 18, 2018
Stochastic Gradient Optimization Techniques参考文献 43被引用数 90
ひとこと要約

Padam は部分的に適応的なモーメント法で、Adam/Amsgradと SGD-Momentum を統合し、一般化は SGD と同等、収束は速い。

ABSTRACT

Adaptive gradient methods, which adopt historical gradient information to automatically adjust the learning rate, despite the nice property of fast convergence, have been observed to generalize worse than stochastic gradient descent (SGD) with momentum in training deep neural networks. This leaves how to close the generalization gap of adaptive gradient methods an open problem. In this work, we show that adaptive gradient methods such as Adam, Amsgrad, are sometimes "over adapted". We design a new algorithm, called Partially adaptive momentum estimation method, which unifies the Adam/Amsgrad with SGD by introducing a partial adaptive parameter $p$, to achieve the best from both worlds. We also prove the convergence rate of our proposed algorithm to a stationary point in the stochastic nonconvex optimization setting. Experiments on standard benchmarks show that our proposed algorithm can maintain a fast convergence rate as Adam/Amsgrad while generalizing as well as SGD in training deep neural networks. These results would suggest practitioners pick up adaptive gradient methods once again for faster training of deep neural networks.

研究の動機と目的

  • Adam および Amsgrad といった適応的勾配法と momentum を用いた SGD との一般化ギャップを мотivateする。
  • 適応性と一般化のバランスをとる部分的適応モーメント法 Padam を提案する。
  • Padam の確率的非凸最適化における収束解析を提供する。
  • 標準ベンチマーク(CIFAR-10、ImageNet、Penn Treebank)で Padam を経験的に評価し、一般化と収束を比較する。
  • 深層学習の学習時のオプティマイザ選択に対する実践的含意を論じる。

提案手法

  • 二次モーメント正規化に部分的適応指数 p を導入して SGD-Momentum (p=0) と Amsgrad (p=1/2) の間を補間する。
  • 更新式: m_t = β1 m_{t-1} + (1−β1) g_t; v_t = β2 v_{t-1} + (1−β2) g_t^2; v̂_t = max(v̂_{t-1}, v_t); x_{t+1} = x_t − α_t m_t / v̂_t^p。
  • Padam の確率的非凸最適化における収束保証を提示し、評価速度は E[||∇f(x_out)||^2] ≤ ...(定理中の式)で特徴づける。
  • 適応法における小さな学習率のジレンマと部分的適応性がそれを緩和し、より大きな実効学習率を可能にすることを説明する。
  • ハイパーパラメータ網羅表を含む経験的プロトコルを提示:p ∈ {2/5, 1/4, 1/5, 1/8, 1/16}, β1=0.9, β2=0.999/0.9999 など。
  • Padam を SGD-Momentum,Adam,Amsgrad,AdamW,Yogi,AdaBound と比較し、画像分類と言語モデルのタスクで評価する。

実験結果

リサーチクエスチョン

  • RQ1部分的に適応的な学習率スキームは Adam/Amsgrad による一般化ギャップを縮小しつつ高速収束を維持できるか?
  • RQ2Padam は確率的非凸最適化で収束保証を提供し、次元数と反復回数に対する収束速度の依存性はどうなるか?
  • RQ3現代のアーキテクチャ(CIFAR-10/ImageNet、LSTM)で Padam は SGD-Momentum や他の Adam 派生と比較してどう機能するか?
  • RQ4部分的適応パラメータ p は初期の収束と最終的な一般化にどんな影響を与えるか?

主な発見

  • 適切に選択された p を用いると Padam は Adam/Amsgrad のように速く収束しつつ、一般化は SGD-Momentum と同等となる。
  • Padam の確率的非凸最適化における収束速度は確立されており、次元 d および反復回数 T に依存する。
  • 経験的結果から Padam は CIFAR-10(VGGNet/WideResNet)で最良のテスト精度を達成することが多く、ImageNet(VGGNet)では Top-1 精度で競争力が高い;Padam は tested models において最良またはほぼ最良の結果を達成。
  • Penn Treebank では、2層および3層 LSTM モデルのいずれも、比較対象のオプティマイザの中で最も低いテスト perplexity を得ている。
  • Padam は Adam/Amsgrad に見られる一般化ギャップを回避しがちで、いくつかのベンチマークで AdaBound/Yogi を上回る。
  • 全体として Padam は高速なトレーニングと強い一般化の両方を提供する実用的なオプティマイザの選択肢である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。