QUICK REVIEW

[論文レビュー] Non-Gaussianity of Stochastic Gradient Noise

Abhishek Panigrahi, Raghav Somani|arXiv (Cornell University)|Oct 21, 2019

Stochastic Gradient Optimization Techniques参考文献 20被引用数 23

ひとこと要約

この論文は、深層学習の訓練中に確率的勾配降下法（SGD）における確率的勾配ノイズ（SGN）の分布を調査する。複数のアーキテクチャとデータセットにおけるSGNの射影に対する統計的正規性検定を用いて、バッチサイズが256以上では、特に訓練の初期段階において、SGNが近似的に正規分布に従うことが判明した。これは、従来の安定（重い尾を持つ）分布であるという主張とは矛盾する。結果から、大規模なSGNに対して中心極限定理（CLT）が適用され、SGDの正規分布に基づく確率微分方程式（SDE）近似が有効であることが示唆される。

ABSTRACT

What enables Stochastic Gradient Descent (SGD) to achieve better generalization than Gradient Descent (GD) in Neural Network training? This question has attracted much attention. In this paper, we study the distribution of the Stochastic Gradient Noise (SGN) vectors during the training. We observe that for batch sizes 256 and above, the distribution is best described as Gaussian at-least in the early phases of training. This holds across data-sets, architectures, and other choices.

研究の動機と目的

確率的勾配降下法（SGD）における深層ニューラルネットワークの訓練中に生じる確率的勾配ノイズ（SGN）の統計的分布を調査すること。
SGNが正規分布か、重い尾を持つ分布（例：安定分布）に従うかを、バッチサイズと訓練段階の関係でテストすること。
従来の研究で対立する主張（SGNが正規分布かα安定分布でモデル化されるべきか）を、厳密な統計的検定を用いて解明すること。
深層学習最適化の文脈において、中心極限定理（CLT）および一般化中心極限定理（GCLT）の妥当性を評価すること。
SGNが正規分布として近似可能となる条件を明確にし、SGDのSDEベースのモデルの妥当性を支持または挑戦すること。

提案手法

著者らは、訓練中に間隔をあけて収集した1,000個の独立したSGNベクトルに対して、シャピロ＝ウィルク検定およびアンダーソン＝ダーリング検定を用いて統計的正規性検定を実施する。
各SGNベクトルに対して、1,000個のランダムな単位ベクトルに沿った射影を計算し、得られたスカラー射影に対して正規性検定を適用する。
検出力のキャリブレーションのため、合成された正規分布およびα安定分布（SαS）からの結果とテスト結果を比較する。
実験は、3層全結合ネットワーク（FCN）、AlexNet、ResNet18、VGG16といった複数のモデル、CIFAR10、MNISTといった複数のデータセット、およびバッチサイズ32、256、4096を対象とする。
学習率は10⁻¹、10⁻²、10⁻³の3値に変更し、交差エントロピー損失関数を用いた定数学習率のSGDで訓練を実行する。
訓練エポック全体にわたりSGNの挙動を分析し、特に初期段階と後期段階の違いに注目する。

実験結果

リサーチクエスチョン

RQ1バッチサイズが大きく、特に訓練の初期段階において、SGDにおける確率的勾配ノイズ（SGN）は近似的に正規分布に従うか？
RQ2バッチサイズを変化させた場合、SGNの分布はどのように変化するか。また、これは中心極限定理（CLT）または一般化中心極限定理（GCLT）を支持するか？
RQ3従来の研究でSGNが重い尾を持つα安定分布に従うと主張しているが、本研究で観察された正規性とはどのように矛盾するのか？
RQ4正規性検定がSGNの非正規性をどの程度検出できるか。また、異なる分布仮定のもとで検定の信頼性はどの程度か？
RQ5従来の研究で用いられたα安定分布推定器の仮定（独立同分布の成分、真の安定性の成立）は、通常の深層学習環境で妥当か？

主な発見

バッチサイズ256以上では、すべてのテスト済みアーキテクチャおよびデータセットにおいて、訓練の初期段階でSGNは正規分布に最もよく適合する。
バッチサイズ4096では、シャピロ＝ウィルク検定およびアンダーソン＝ダーリング検定のp値が一貫して高いまま維持され、SGNが訓練全体を通して近似的に正規分布に従うことが確認された。
バッチサイズ32では、すべての方向および訓練段階でSGNは一貫して非正規分布であり、統計的検定で正規性が棄却された。
中間バッチサイズ256では、訓練初期には正規分布に従うが、後期には非正規分布に移行するため、ノイズ分布の遷移が観察された。
従来の研究で用いられたα安定分布推定器に欠陥が存在することが同定された。具体的には、成分が独立同分布であると仮定しており、かつ真の安定性が成立すると仮定しているが、これらは過パrameter化された深層学習環境で成立しない。
本研究の結果は、尾指数による主張とは矛盾する。すなわち、大規模バッチサイズでもSGNが安定分布に従うと主張するが、実際には十分に大きなバッチサイズでCLTの条件が満たされ、正規性が出現することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。