QUICK REVIEW

[論文レビュー] Understanding Generalization and Stochastic Gradient Descent

Samuel Smith, Quoc V. Le|arXiv (Cornell University)|Oct 17, 2017

Machine Learning and Algorithms参考文献 9被引用数 4

ひとこと要約

この論文は、一般化をベイズ的証拠に結びつけることで、深層学習における確率的勾配降下法（SGD）がなぜ一般化性能が良いかを説明している。ベイズ的証拠は、鋭い極小値よりも広がりのある極小値を好む。最適なミニバッチサイズは学習率と訓練データセットサイズの積に比例し、小さなミニバッチが最適化を高証拠の極小値へと駆り立てるノイズを導入することを示しており、実験的にも裏付けられている。

ABSTRACT

We consider two questions at the heart of machine learning; how can we predict if a minimum will generalize to the test set, and why does stochastic gradient descent find minima that generalize well? Our work responds to Zhang et al. (2016), who showed deep neural networks can easily memorize randomly labeled training data, despite generalizing well on real labels of the same inputs. We show that the same phenomenon occurs in small linear models. These observations are explained by the Bayesian evidence, which penalizes sharp minima but is invariant to model parameterization. We also demonstrate that, when one holds the learning rate fixed, there is an optimum batch size which maximizes the test set accuracy. We propose that the introduced by small mini-batches drives the parameters towards minima whose evidence is large. Interpreting stochastic gradient descent as a stochastic differential equation, we identify the noise scale $g = \epsilon (\frac{N}{B} - 1) \approx \epsilon N/B$, where $\epsilon$ is the learning rate, $N$ the training set size and $B$ the batch size. Consequently the optimum batch size is proportional to both the learning rate and the size of the training set, $B_{opt} \propto \epsilon N$. We verify these predictions empirically.

研究の動機と目的

テストデータに対して一般化性能が良い極小値をSGDがどのように見つけ出すかを理解すること。
Zhangら（2016）が、モデルがランダムラベルを記憶できることを示したことに鑑み、ニューラルネットワークの一般化行動を説明すること。
ミニバッチサイズと学習率が一般化性能に与える影響を調査すること。
SGDのダイナミクスをベイズ的証拠に結びつけ、パラメータの定式化に依存しない鋭い極小値のペナルティを提供すること。
理論的最適ミニバッチサイズを導出し、テスト精度を最大化することを検証すること。

提案手法

モデルの一般化を測る指標としてベイズ的証拠を用い、パラメータの定式化に依存せず広がりのある極小値を好む。
SGDを確率的微分方程式としてモデル化し、ノイズのスケール $ g = \epsilon (\frac{N}{B} - 1) \approx \epsilon N/B $ を導出する。ここで $ \epsilon $ は学習率、$ N $ は訓練データセットサイズ、$ B $ はミニバッチサイズである。
小さなミニバッチがノイズを導入し、高ベイズ的証拠の極小値へとパラメータを駆り立てるという仮説を提示する。
最適ミニバッチサイズを $ B_{\text{opt}} \propto \epsilon N $ として導出し、学習率および訓練データセットサイズに線形に比例することを示す。
実験的に、小規模な線形モデルおよび深層ニューラルネットワークを用いて、実際のデータおよびランダムラベルデータに対して理論的予測を検証する。

実験結果

リサーチクエスチョン

RQ1なぜSGDで学習されたモデルは、ランダムラベルを記憶できるにもかかわらず、一般化性能が良いのか？
RQ2ミニバッチサイズの選択がSGDにおける一般化性能にどのように影響するのか？
RQ3確率的ノイズと極小値のベイズ的証拠との関係は何か？
RQ4学習率と訓練データセットサイズに基づいて、最適ミニバッチサイズを解析的に予測できるか？
RQ5ランダムラベルへの記憶現象は、深層ネットワークに限らず、より小さなモデルに対しても拡張可能か？

主な発見

ベイズ的証拠は鋭い極小値をペナルティ化し、モデルのパラメータの定式化に依存しないため、一般化の理論的説明を提供する。
小さな線形モデルでも、ランダムラベルデータを記憶する能力を示しており、記憶は深層ネットワークに特有の現象ではないことが確認された。
学習率を固定した場合、テストセット精度を最大にする最適なミニバッチサイズが存在する。
最適ミニバッチサイズは、学習率および訓練データセットサイズに比例し、$ B_{\text{opt}} \propto \epsilon N $ となる。
実験結果から、小さなミニバッチが導入するノイズが最適化を高証拠の極小値へと駆り立てるため、一般化性能が向上することが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。