QUICK REVIEW

[論文レビュー] Decaying momentum helps neural network training

John Chen, Anastasios Kyrillidis|arXiv (Cornell University)|Sep 25, 2019

Advanced Neural Network Applications参考文献 78被引用数 12

ひとこと要約

本稿では、Adam やモーメンタム SGD のような適応的最適化手法において、過去の勾配の影響を段階的に減少させる単純ながら効果的なルールである Decaying Momentum（Demon）を提案する。時間経過に伴いモーメンタムを減衰させることで、訓練の安定性と性能が向上し、学習率スケジューリングと同等の結果を達成するが、ハイパーパramータのチューニングに対してははるかに感受性が低い。

ABSTRACT

Momentum is a simple and popular technique in deep learning for gradient-based optimizers. We propose a decaying momentum (Demon) rule, motivated by decaying the total contribution of a gradient to all future updates. Applying Demon to Adam leads to significantly improved training, notably competitive to momentum SGD with learning rate decay, even in settings in which adaptive methods are typically non-competitive. Similarly, applying Demon to momentum SGD improves over momentum SGD with learning rate decay in most cases. Notably, Demon momentum SGD is observed to be significantly less sensitive to parameter tuning than momentum SGD with learning rate decay schedule, critical to training deep neural networks in practice.Results are demonstrated across a variety of settings and architectures, including image classification, generative models, and language models. Demon is trivial to implement, easy to tune, and incurs limited extra computational overhead, compared to the vanilla counterparts. Code is readily available.

研究の動機と目的

Adam のような適応的最適化手法でよく見られる、一般化性能の低さとハイパーパramータへの感受性を改善すること。
学習率スケジューリングに依存せずに、深層ニューラルネットワークにおける訓練の安定性と収束性を向上させること。
Adam とモーメンタム SGD の両方を強化する、単純で効果的なモーメンタム減衰機構を開発すること。
深層学習最適化における膨大なハイパーパramータチューニングの必要性を低減すること。

提案手法

歴史的勾配の影響が徐々に小さくなるのを模倣し、過去の勾配の寄与を時間とともに減少させる減衰モーメンタムルールを導入する。
時間に依存するモーメンタム係数を導入することで、Adam とモーメンタム SGD のモーメンタム更新ルールを変更し、単調に減少させる。
Adam の一次モーメントおよび二次モーメントの両方に減衰モーメンタムを適用し、古い勾配が将来の更新に与える寄与を小さく保証する。
指数関数的または多項式的減衰などの単純なスケジュールをモーメンタム係数に使用し、実装とチューニングが容易になるようにする。
最小限の計算オーバーヘッドで既存の最適化手法に減衰モーメンタムを統合する。
画像分類、生成モデル、言語モデルを含む多様なアーキテクチャとタスクにおいて、手法を評価する。

実験結果

リサーチクエスチョン

RQ1減衰モーメンタムは、Adam のような適応的最適化手法の一般化性能を向上させることができるか？
RQ2学習率スケジューリングと比較して、減衰モーメンタムはハイパーパラメータチューニングへの感受性を低減するか？
RQ3追加の計算コストなしに、減衰モーメンタムは深層ニューラルネットワークにおける訓練の安定性と収束性を向上させることができるか？
RQ4視覚的・言語的モデルを含む多様なアーキテクチャとタスクにおいて、Demon はどのように性能を発揮するか？

主な発見

Demon は Adam において、学習率スケジューリングを用いたモーメンタム SGD と同等の結果を達成し、訓練性能を向上させる。
Demon モーメンタム SGD は、ほとんどのテスト設定において、学習率スケジューリングを用いた標準的なモーメンタム SGD を上回る性能を示す。
Demon モーメンタム SGD は、学習率スケジューリングを用いたモーメンタム SGD よりもはるかにハイパーパラメータチューニングに対して感受性が低い。
ベースライン最適化手法と比較して、計算オーバーヘッドが最小限で、実装が容易である。
Demon は画像分類、生成モデル、言語モデルのすべての分野で一貫した改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。