Skip to main content
QUICK REVIEW

[論文レビュー] Decoupled Weight Decay Regularization

Ilya Loshchilov, Frank Hutter|arXiv (Cornell University)|Nov 14, 2017
Sparse and Compressive Sensing Techniques被引用数 9,013
ひとこと要約

この論文は、L2正則化がAdamのような適応的最適化アルゴリズムに対してウェイト減衰と同等ではないことを示し、デカップリングされたウェイト減衰(AdamW/SGDW)を提案し、一般化性能とハイパーパラメータ調整の容易性を改善することを示している。

ABSTRACT

L$_2$ regularization and weight decay regularization are equivalent for standard stochastic gradient descent (when rescaled by the learning rate), but as we demonstrate this is \emph{not} the case for adaptive gradient algorithms, such as Adam. While common implementations of these algorithms employ L$_2$ regularization (often calling it "weight decay" in what may be misleading due to the inequivalence we expose), we propose a simple modification to recover the original formulation of weight decay regularization by \emph{decoupling} the weight decay from the optimization steps taken w.r.t. the loss function. We provide empirical evidence that our proposed modification (i) decouples the optimal choice of weight decay factor from the setting of the learning rate for both standard SGD and Adam and (ii) substantially improves Adam's generalization performance, allowing it to compete with SGD with momentum on image classification datasets (on which it was previously typically outperformed by the latter). Our proposed decoupled weight decay has already been adopted by many researchers, and the community has implemented it in TensorFlow and PyTorch; the complete source code for our experiments is available at https://github.com/loshchil/AdamW-and-SGDW

研究の動機と目的

  • 研究の動機: 画像タスクにおいて、適応的勾配法はモメンタムを用いた SGD と比較して一般化性能が劣る。
  • L2正則化が適応的最適化アルゴリズムに対してウェイト減衰と等価ではないことを示す。
  • デカップリングされたウェイト減衰を解決策として提案し、その一般化とハイパパラメータ調整への影響を分析する。

提案手法

  • ウェイト減衰を勾配更新とは独立したステップとして定義する(Algorithm 1 SGDW)。
  • デカップリングのアイデアを Adam に拡張し AdamW(Algorithm 2)を形成する。
  • 適応的方法における L2 とウェイト減衰の不等価性を示す理論命題(命題2および3)を提供する。
  • ベイズフィルタリングの観点(Aitchison 2018)からデカップルドウェイト減衰を正当化する。
  • さまざまな学習率スケジュールを用いて CIFAR-10、CIFAR-100、および ImageNet32x32 で Adam、AdamW、SGD、SGDW を経験的に比較する。

実験結果

リサーチクエスチョン

  • RQ1L2正則化は Adam のような適応的勾配法に対してウェイト減衰と等価か?
  • RQ2勾配更新からウェイト減衰をデカップリングすることで Adam の一般化は改善されるか?
  • RQ3学習率スケジュールは SGD/Adam におけるデカップルドウェイト減衰とどう相互作用するか?
  • RQ4デカップルドウェイト減衰を使用するとハイパーパラメータ調整は容易になるか?

主な発見

  • L2正則化は Adam のような適応的勾配法に対してウェイト減衰と等価ではない。
  • デカップルドウェイト減衰を用いた AdamW は L2正則化を用いた Adam よりはるかに良い一般化を示し、検証データセットで約15%の相対的なテストエラー改善を達成している。
  • ウェイト減衰を勾配更新からデカップル化することで学習率とウェイト減衰のハイパーパラメータを分離し、ハイパーパラメータ調整をより分離可能にする。
  • コサインアニーリングとウォームリスタートは AdamW および SGDW の性能を向上させ、モメンタムを用いた SGD との差を縮小する。
  • AdamW は CIFAR-10、CIFAR-100、ImageNet32x32 全般でより良い一般化を報告し、AdamWR は任意の時点での性能を大幅に改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。