QUICK REVIEW

[論文レビュー] Accelerating Stochastic Training for Over-parametrized Learning

Chaoyue Liu, Mikhail Belkin|arXiv (Cornell University)|Oct 31, 2018

Stochastic Gradient Optimization Techniques参考文献 12被引用数 2

ひとこと要約

本稿では、標準的なSGDと同一のステップサイズで収束を保証するが、すべてのミニバッチサイズで加速収束率を達成する補正項を備えた変更版Nesterov SGD、すなわちMaSSを提案する。線形設定では、マス・バッチの場合に最適なNesterov加速レートを達成し、深層ネットワークの実験ではSGD、Nesterov SGD、Adamを上回る性能を示す。

ABSTRACT

Nesterov SGD is widely used for training modern neural networks and other machine learning models. Yet, its advantages over SGD have not been theoretically clarified. Indeed, as we show in our paper, both theoretically and empirically, Nesterov SGD with any parameter selection does not in general provide acceleration over ordinary SGD. Furthermore, Nesterov SGD may diverge for step sizes that ensure convergence of ordinary SGD. This is in contrast to the classical results in the deterministic scenario, where the same step size ensures accelerated convergence of the Nesterov's method over optimal gradient descent. To address the non-acceleration issue, we introduce a compensation term to Nesterov SGD. The resulting algorithm, which we call MaSS, converges for same step sizes as SGD. We prove that MaSS obtains an accelerated convergence rates over SGD for any mini-batch size in the linear setting. For full batch, the convergence rate of MaSS matches the well-known accelerated rate of the Nesterov's method. We also analyze the practically important question of the dependence of the convergence rate and optimal hyper-parameters on the mini-batch size, demonstrating three distinct regimes: linear scaling, diminishing returns and saturation. Experimental evaluation of MaSS for several standard architectures of deep networks, including ResNet and convolutional networks, shows improved performance over SGD, Nesterov SGD and Adam.

研究の動機と目的

Nesterov SGDの理論的・実証的不一致を解消すること。これは、決定的設定では成功しているが、確率的設定では加速が達成できず、発散する可能性があるためである。
過パラメータ化された確率的設定において、古典的な決定的結果とは対照的に、Nesterov SGDがなぜ加速を提供しないのかを特定すること。
Nesterovのモーメンタムの利点を保持しつつ、確率的学習における収束性と加速性を保証するように変更されたアルゴリズムを設計すること。
ミニバッチサイズに依存する収束速度および最適ハイパーパrameterの依存関係を分析し、3つの異なるスケーリング領域を特定すること。
標準的な深層学習アーキテクチャを用いてMaSSを実証的に検証し、SGD、Nesterov SGD、Adamに対して一貫した改善を示すこと。

提案手法

標準的なSGDと同一のステップサイズで収束を保証するため、Nesterov SGDに補正項を導入し、モーメンタム更新を補正して収束を安定化する。
MaSSを、Nesterovモーメンタムと、現在の反復と過去の反復の勾配差から導かれる補正項を組み合わせた修正更新ルールとして定式化する。
線形モデル設定において、MaSSが加速収束レートを達成することを証明し、マス・バッチの場合に古典的なNesterov加速レートに一致することを示す。
ミニバッチサイズに依存する収束速度および最適ステップサイズの依存関係を分析し、線形スケーリング、収益逓減、飽和の3つの領域を特定する。
標準的な深層学習フレームワークにMaSSを実装し、ResNetおよび畳み込みネットワークに対して、標準的なハイパーパrameter設定で評価する。

実験結果

リサーチクエスチョン

RQ1過パラメータ化された確率的学習において、決定的最適化では成功しているにもかかわらず、なぜNesterov SGDは加速を提供しないのか？
RQ2SGDと同一のステップサイズで収束を保証しつつ、加速を達成できるNesterov SGDの修正版を構築できるか？
RQ3MaSSの収束速度および最適ハイパーパrameter選択は、ミニバッチサイズに応じてどのようにスケーリングされるのか、異なる領域においてどうなるか？
RQ4MaSSは、標準的な深層学習ベンチマークにおいて、SGD、Nesterov SGD、Adamを実際の性能で上回るのか？

主な発見

MaSSは、任意のミニバッチサイズにおいて、線形設定でSGDに対する加速収束レートを達成し、マス・バッチの場合に古典的なNesterov加速レートに一致する。
任意のパラメータ設定でも、Nesterov SGDは一般にSGDを上回る加速を達成できないし、SGDの収束を保証するステップサイズでは発散する可能性がある。
MaSSに提案された補正項により、訓練が安定化され、標準的なSGDと同一のステップサイズで収束が保証される。
収束速度および最適ステップサイズがミニバッチサイズに依存する関係には、3つの明確な領域（線形スケーリング、収益逓減、飽和）が存在する。
ResNetおよび畳み込みネットワークにおける実証的結果から、MaSSは訓練精度および一般化性能において、SGD、Nesterov SGD、Adamを上回ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。