QUICK REVIEW

[論文レビュー] A Bayesian Perspective on Generalization and Stochastic Gradient Descent

Samuel Smith, Quoc V. Le|arXiv (Cornell University)|Oct 17, 2017

Stochastic Gradient Optimization Techniques被引用数 24

ひとこと要約

本稿では、確率的勾配降下法（SGD）が一般化性能を高める理由をベイジアン証拠が説明すると提案している。この証拠は鋭い極小点を罰するが、モデルのパrameter化に依存しない。著者らは、ノイズスケール $ g \approx \epsilon N / B $ を導出し、テスト精度を最大化する最適バッチサイズ $ B_{\text{opt}} \propto \epsilon N $ が得られることを示した。これは、学習率、バッチサイズ、トレーニングデータサイズの変動において、実験的にも裏付けられている。

ABSTRACT

We consider two questions at the heart of machine learning; how can we predict if a minimum will generalize to the test set, and why does stochastic gradient descent find minima that generalize well? Our work responds to Zhang et al. (2016), who showed deep neural networks can easily memorize randomly labeled training data, despite generalizing well on real labels of the same inputs. We show that the same phenomenon occurs in small linear models. These observations are explained by the Bayesian evidence, which penalizes sharp minima but is invariant to model parameterization. We also demonstrate that, when one holds the learning rate fixed, there is an optimum batch size which maximizes the test set accuracy. We propose that the noise introduced by small mini-batches drives the parameters towards minima whose evidence is large. Interpreting stochastic gradient descent as a stochastic differential equation, we identify the "noise scale" $g = ε(\frac{N}{B} - 1) \approx εN/B$, where $ε$ is the learning rate, $N$ the training set size and $B$ the batch size. Consequently the optimum batch size is proportional to both the learning rate and the size of the training set, $B_{opt} \propto εN$. We verify these predictions empirically.

研究の動機と目的

確率的勾配降下法（SGD）が、ランダムラベルを記憶できるモデルであるにもかかわらず、なぜ一般化性能の高い極小点を見つけられるかを説明すること。
張らら（2016）が提起したパラドックスに対処すること。このパラドックスとは、深層ネットワークがランダムラベルを記憶する一方で、実際のデータでは一般化することである。
ミニバッチノイズが、ベイジアン証拠が大きな値を示す極小点へSGDを導く役割を果たすことを特定すること。
学習率、トレーニングデータサイズ、モーメンタムとの関係において、最適バッチサイズのスケーリング則を導出し、検証すること。

提案手法

パrameter化に依存しないオッカム係数によって鋭い極小点を罰するモデル証拠を評価するため、ベイジアンモデル比較を用いる。
ノイズスケール $ g \approx \epsilon N / B $ を持つ確率的微分方程式としてSGDをモデル化する。ここで $ \epsilon $ は学習率、$ N $ はトレーニングデータサイズ、$ B $ はバッチサイズである。
ノイズ駆動の探索と、高証拠極小点への収束のバランスを取ることで、最適バッチサイズ $ B_{\text{opt}} \propto \epsilon N $ を導出する。
モーメンタム付きSGDへの拡張を行い、$ g \approx \frac{\epsilon N}{B(1 - m)} $ および $ B_{\text{opt}} \propto \frac{1}{1 - m} $ を導出する。ここで $ m $ はモーメンタム係数である。
学習率、バッチサイズ、トレーニングデータサイズ、モーメンタム値の変動において、スケーリング則の妥当性を実験的に検証する。
交差エントロピー損失にL2正則化とガウス事前分布を組み合わせ、コスト関数 $ C(\omega; M) = H(\omega; M) + \lambda \omega^2 / 2 $ を計算する。これにより、事後分布と証拠に接続する。

実験結果

リサーチクエスチョン

RQ1なぜSGDで学習されたモデルは、ランダムラベルを記憶できるにもかかわらず、実際のラベルでは一般化性能が高いのか？
RQ2SGDにおけるミニバッチノイズは、一般化性能の高い極小点の選択にどのように影響するのか？
RQ3最適バッチサイズ、学習率、トレーニングデータサイズの間にはどのような関係があるのか？
RQ4モーメンタムはSGDにおける最適バッチサイズにどのように影響するのか？
RQ5ベイジアン証拠は、深層モデルおよび小規模な線形モデルの両方における一般化を説明できるか？

主な発見

張らら（2016）が深層ネットワークで観察した、ランダムラベルの記憶現象は、小規模で過パラメータ化された線形モデルに対しても同様に観察される。
ベイジアン証拠が一般化を説明する：鋭い極小点を罰する性質があり、モデルのパrameter化に依存しない。これにより、記憶パラドックスが解消される。
テスト精度を最大化する最適バッチサイズが存在し、それは学習率およびトレーニングデータサイズに線形に比例する：$ B_{\text{opt}} \propto \epsilon N $。
実験結果により、線形スケーリング則 $ B_{\text{opt}} \propto \epsilon N $ が裏付けられ、ピークテスト精度は $ \epsilon \sim 3 $ まで安定している。これより大きい値では離散化誤差が性能を劣化させる。
モーメンタム付きSGDでは、最適バッチサイズは $ B_{\text{opt}} \propto \frac{1}{1 - m} $ に比例し、実験結果はこの法則と強く一致している。
最適バッチサイズはトレーニングデータサイズに応じて増加し、データサイズが大きくなるにつれて一般化ギャップが小さくなる。これは、データ量が増加する生産環境においてより大きなバッチサイズを使用する価値があることを支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。