QUICK REVIEW

[論文レビュー] Accelerating SGD with momentum for over-parameterized learning

Chaoyue Liu, Mikhail Belkin|arXiv (Cornell University)|Oct 31, 2018

Advanced Neural Network Applications参考文献 28被引用数 36

ひとこと要約

本稿では、過パラメータ化・補間的設定における標準的なSGDより収束を加速できるようにした、補正項を備えた変更版Nesterov SGDであるMaSS（Momentum-added Stochastic Solver）を提案する。MaSSは、標準SGDと同等の収束範囲を確保しながら、フルバッチの決定的極限においてNesterov加速の最適レートを達成する。また、3つの明確なミニバッチスケーリング領域（線形、収穫逓減、飽和）を特定する。

ABSTRACT

Nesterov SGD is widely used for training modern neural networks and other machine learning models. Yet, its advantages over SGD have not been theoretically clarified. Indeed, as we show in our paper, both theoretically and empirically, Nesterov SGD with any parameter selection does not in general provide acceleration over ordinary SGD. Furthermore, Nesterov SGD may diverge for step sizes that ensure convergence of ordinary SGD. This is in contrast to the classical results in the deterministic scenario, where the same step size ensures accelerated convergence of the Nesterov's method over optimal gradient descent. To address the non-acceleration issue, we introduce a compensation term to Nesterov SGD. The resulting algorithm, which we call MaSS, converges for same step sizes as SGD. We prove that MaSS obtains an accelerated convergence rates over SGD for any mini-batch size in the linear setting. For full batch, the convergence rate of MaSS matches the well-known accelerated rate of the Nesterov's method. We also analyze the practically important question of the dependence of the convergence rate and optimal hyper-parameters on the mini-batch size, demonstrating three distinct regimes: linear scaling, diminishing returns and saturation. Experimental evaluation of MaSS for several standard architectures of deep networks, including ResNet and convolutional networks, shows improved performance over SGD, Nesterov SGD and Adam.

研究の動機と目的

過パラメータ化モデルにおけるNesterov SGDの理論的・実験的加速の欠如を解消すること。
Nesterov SGDが決定的設定では成功しているにもかかわらず、過パラメータ化・補間的設定ではSGDより加速しない理由を特定すること。
標準SGDと同等のステップサイズ範囲で、モーメンタムに基づく加速を実現する新しいアルゴリズムを設計すること。
加速された確率的最適化における収束速度と最適ハイパーパrameterがミニバッチサイズにどのように依存するかを分析すること。
深層ニューラルネットワーク上でのMaSSの検証を行い、SGD、SGD+Nesterov、Adamと比較して最適化性能と一般化性能が向上することを示すこと。

提案手法

収束の安定化と加速を図るため、モーメンタム更新に補正項を組み込んだ2段階更新ルールを導入したMaSSを提案する。
アルゴリズムは確率的勾配と、勾配に比例する補正成分を含む修正されたモーメンタム項を用いて重みを更新する。
補正項は、標準SGDと同一のステップサイズで収束を保証するために導出され、Nesterov SGDの不安定性を相殺する。
理論的分析により、MaSSは線形設定で加速収束を達成し、バッチサイズがフルの場合には決定的Nesterov法と同一の最適収束レートを達成することが示された。
本手法は、線形、収穫逓減、飽和の3つの明確なミニバッチスケーリング領域を特定し、臨界バッチサイズ $m_1^*$ と $m_2^*$ を解析的に導出する。
実験的評価では、MNISTおよびCIFAR-10でResNet、CNN、全結合ネットワークを用い、安定性を維持するため学習率のスケーリングとリスタートを導入した。

実験結果

リサーチクエスチョン

RQ1なぜNesterov SGDは過パラメータ化・補間的設定において標準SGDより加速しないのか？
RQ2補正付きモーメンタム法は、標準SGDと同等のステップサイズで収束安定性と加速を両立できるか？
RQ3加速された確率的最適化における収束速度はミニバッチサイズにどのように依存するか？
RQ4ミニバッチサイズに応じた収束速度と最適ハイパーパrameterの明確なスケーリング領域は何か？
RQ5提案されたMaSSアルゴリズムは、深層ネットワークにおいてSGD、SGD+Nesterov、Adamを上回る最適化性能と一般化性能を達成できるか？

主な発見

Nesterov SGDは、確率的で過パラメータ化された設定では、標準SGDより加速しない。また、SGDが収束するステップサイズでも発散する可能性がある。
MaSSは、SGDと同一のステップサイズ範囲で指数的収束を達成し、線形設定では加速収束レートを達成する。
フルバッチの決定的ケースでは、MaSSは古典的Nesterov法に還元され、そのよく知られた最適収束レートを達成する。
1回の反復あたりの収束速度 $s(m)$ は、3つの明確な領域（線形スケーリング、収穫逓減、飽和）を示し、臨界バッチサイズ $m_1^*$ と $m_2^*$ が解析的に導出された。
ミニバッチサイズ $m=64$ の場合、MaSSの最適 $\tilde{\kappa}_m$ 値は $[2,25]$ の範囲にあり、$\alpha=0.05$ に対応する $\gamma=0.90$ となる。
実験的結果から、ResNet、CNN、全結合アーキテクチャを用いたMNISTおよびCIFAR-10において、MaSSは訓練損失の低減とテスト精度の両面でSGD、SGD+Nesterov、Adamを上回ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。