QUICK REVIEW

[論文レビュー] Dynamics of stochastic gradient descent for two-layer neural networks in the teacher-student setup

Sebastian Goldt, Madhu Advani|arXiv (Cornell University)|Jun 18, 2019

Stochastic Gradient Optimization Techniques被引用数 33

ひとこと要約

この論文は、教師-学生フレームワークにおける過剰パラメータ化された二層ネットワークのオンラインSGDダイナミクスを分析し、マクロな秩序パラメータの常微分方程式（ODEs）を導出し、一般化がどのようにオーバーパラメータ化と層の訓練に応じてスケールするかを、訓練される層と活性化関数に依存する形で示す。

ABSTRACT

Deep neural networks achieve stellar generalisation even when they have enough parameters to easily fit all their training data. We study this phenomenon by analysing the dynamics and the performance of over-parameterised two-layer neural networks in the teacher-student setup, where one network, the student, is trained on data generated by another network, called the teacher. We show how the dynamics of stochastic gradient descent (SGD) is captured by a set of differential equations and prove that this description is asymptotically exact in the limit of large inputs. Using this framework, we calculate the final generalisation error of student networks that have more parameters than their teachers. We find that the final generalisation error of the student increases with network size when training only the first layer, but stays constant or even decreases with size when training both layers. We show that these different behaviours have their root in the different solutions SGD finds for different activation functions. Our results indicate that achieving good generalisation in neural networks goes beyond the properties of SGD alone and depends on the interplay of at least the algorithm, the model architecture, and the data set.

研究の動機と目的

実務で過度にオーバーパラメータ化されたネットワークがなぜ良く一般化するのかを動機づけ、理解する。
教師-学生設定におけるオンラインSGDダイナミクスの厳密な巨視的記述（ODE）を構築する。
最初の層のみを訓練する過剰パラメータ化した学生に対する漸近的一般化誤差を分析する。
両方の層を訓練することが一般化へ与える影響を分析し、活性化機能依存の挙動を特定する。
ODEフレームワークをSGDシミュレーションと有限サイズ実験と比較して分析的・数値的に検証する。

提案手法

入力を教師と学生の二層ネットワークを用いてi.i.d. ガウス分布としてモデル化する。
秩序パラメータ m = (R, Q, T, v*, v) を定義し、教師-学生および学生の重なりを表現する。
dR/dα, dQ/dα, dv/dα の連成ODEを導出し、それらが m(α) によって閉じることを示す。
大規模N極限で、SGDの巨視的状態がODEの一意解に従う厳密な収束結果を証明する。
様々な活性化関数（シグモイド、線形、ReLU）と訓練設定に対して漸近的一般化誤差 ε_g* を計算する。
解析的予測をSGDシミュレーションおよび有限サイズ実験と照合して検証する。

実験結果

リサーチクエスチョン

RQ1ネットワークサイズが大きくなるにつれて、教師-学生の二層設定におけるオンラインSGDダイナミクスはどのように進化するか。
RQ2最初の層のみを訓練する場合、過剰パラメータ化（K > M）は最終的な一般化誤差にどのような影響を与えるか。
RQ3両方の層を訓練する場合、漸近的一般化誤差はどう変化し、異なる活性化でSGDはいかなる解へ収束するのか。
RQ4活性化関数はSGDダイナミクス下の固定点と一般化性能にどのような役割を果たすのか。
RQ5ODEフレームワークは様々なアーキテクチャとデータレジームにおいてSGDの結果を正確に予測できるか。

主な発見

Soft Committee Machines において、最初の層のみを訓練する場合、最終的な一般化誤差は余剰隠れユニット L の数とともに増加する。
シグモイドおよび線形活性化では、ε_g* は η、σ^2、L の関数としてスケールし、単一層訓練設定で過剰パラメータ化が一般化を劣化させる。
両方の層を訓練すると、シグモイド網ではノイズ除去解により複数の学生ユニットが特化して実質的に教師出力を平均化するため一般化が改善する。
ReLUおよび線形ネットワークは、両方の層を訓練した場合、Kの増加に伴う ε_g* が一定となり、これらの場合にはSGD下でオーバーパラメータ化の恩恵があまり顕著でない。
解析的表現と数値計算は、SGDから生じる明示的な正則化がアルゴリズム、アーキテクチャ、データに強く依存し、SGD自体だけでは決まらないことを示唆している。
著者らは再現可能なパイプラインを提供しており、ODE積分器と実験を含む公開リポジトリを提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。