Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks

Boris Ginsburg, Patrice Castonguay|arXiv (Cornell University)|May 27, 2019
Stochastic Gradient Optimization Techniques参考文献 39被引用数 88
ひとこと要約

NovoGrad は、層ごとの勾配正規化とデカップリングされたウェイトデケイを用いた適応的SGD手法で、視覚・音声・翻訳・言語モデリングにおいて、モーメントを用いたSGDおよびAdam/AdamWと同等またはそれ以上の性能を発揮し、学習率と初期化に対して頑健で、Adamのメモリフットプリントのおよそ半分である。

ABSTRACT

We propose NovoGrad, an adaptive stochastic gradient descent method with layer-wise gradient normalization and decoupled weight decay. In our experiments on neural networks for image classification, speech recognition, machine translation, and language modeling, it performs on par or better than well tuned SGD with momentum and Adam or AdamW. Additionally, NovoGrad (1) is robust to the choice of learning rate and weight initialization, (2) works well in a large batch setting, and (3) has two times smaller memory footprint than Adam.

研究の動機と目的

  • 画像分類、音声認識、機械翻訳、言語モデリングの全タスクで良好に機能する単一のオプティマイザを開発する。
  • 学習率とウェイト初期化に対する頑健性を向上させる。
  • Adamと比較してメモリフットプリントを削減しつつ性能を維持する。
  • 正則化を強化し、大規模バッチ学習をサポートする。

提案手法

  • 層ごとの2次モーメントを導入し、層ごとのノルムで勾配を正規化する。
  • 層ごとの2次モーメントで割った勾配を用いて1次モーメントを計算し、更新前に正規化された勾配にデカップリングされたウェイトデケイを加える。
  • ウェイトは1次モーメントを用いてモーメント付きSGD風に更新し、デカップリングされたウェイトデケイ項を追加する。
  • 安定性向上について論じ、凸に近い設定に対するAMS-Grad との関連を示す。

実験結果

リサーチクエスチョン

  • RQ1NovoGrad は、さまざまな深層学習タスクでモーメント付き SGD および Adam/AdamW と同等またはそれを上回ることができるか。
  • RQ2層ごとの勾配正規化は、要素ごとの正規化よりも学習率と初期化に対して頑健か。
  • RQ3デカップリングされたウェイトデケイは NovoGrad の正則化と一般化を改善するか。
  • RQ4既存の最適化手法と比較して、大規模バッチ学習における NovoGrad の性能はどうか。
  • RQ5Adam と比較して NovoGrad はどのようなメモリおよび計算上の利点を提供するか。

主な発見

  • NovoGrad は ImageNet、WMT’14 英語–ドイツ語翻訳、LibriSpeech、WikiText-103 言語モデリングの全領域で、モーメント付き SGD および Adam/AdamW に追随またはそれを超える。
  • NovoGrad は学習率とウェイト初期化に頑健で、多くの設定で LR warm-up なしで良好に機能する。
  • 大規模バッチの画像および音声タスクで、追加の工夫なしに競争力のあるまたは優れた精度/WER を達成する。
  • NovoGrad は Adam の約半分のメモリフットプリントで、 大規模モデルのトレーニングを支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。