QUICK REVIEW

[論文レビュー] SGD on Neural Networks Learns Functions of Increasing Complexity

Preetum Nakkiran, Gal Kaplun|arXiv (Cornell University)|May 28, 2019

Neural Networks and Applications参考文献 36被引用数 48

ひとこと要約

この論文は、SGDがまず線形風の関数を学習して初期の利益を説明し、その後も初期の線形成分を保持しつつ、より複雑な関数を段階的に学習して一般化を助けることを実験的および理論的に示している。

ABSTRACT

We perform an experimental study of the dynamics of Stochastic Gradient Descent (SGD) in learning deep neural networks for several real and synthetic classification tasks. We show that in the initial epochs, almost all of the performance improvement of the classifier obtained by SGD can be explained by a linear classifier. More generally, we give evidence for the hypothesis that, as iterations progress, SGD learns functions of increasing complexity. This hypothesis can be helpful in explaining why SGD-learned classifiers tend to generalize well even in the over-parameterized regime. We also show that the linear classifier learned in the initial stages is "retained" throughout the execution even if training is continued to the point of zero training error, and complement this with a theoretical result in a simplified model. Key to our work is a new measure of how well one classifier explains the performance of another, based on conditional mutual information.

研究の動機と目的

ニューラルネットワークにおけるSGDの初期改善が大部分、線形分類器を学習することによって説明されることを示す。
訓練が進行するにつれて、SGDが初期の単純な分類器からの情報を保持することを示す証拠を提供する。
単純な分類器がより複雑な分類器をどの程度説明するかを定量化する相互情報量に基づく指標を導入する。

提案手法

Fの性能のうちLによってどれだけ説明されるかを定量化するために、mu_Y(F;L)=I(F;Y)-I(F;Y|L)という相互情報ベースの性能相関を定義する。
現実のデータと合成データの二値分類タスクにおいて、訓練時間tをまたいでmu_Y(F_t;L)を実験的に評価する。
初期段階の学習を最良の線形分類器と比較し、訓練が進むにつれての位相遷移を分析する。
畳み込みアーキテクチャと段階的な単純モデルを用いて、線形分類器を超えるより大きな複雑さへ分析を拡張する。
単純な初期分類器の保持を、単純化されたデータ分布において過parameterized線形SGDの下で示す理論的結果（定理1）を提供する。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークにおけるSGDの初期性能は、主に単純な（線形）分類器から来るのか。
RQ2訓練が初期段階を越えて進むにつれて、SGDは初期の単純分類器の影響を保持するのか。
RQ3SGDの進行を、簡素な成分を保持しつつ、より高次の複雑さを持つ関数を学習することとして説明できるか。
RQ4相互情報量は、より複雑なSGDモデルに対する単純分類器の説明力をどのように定量化できるか。
RQ5現実の設定で、結果は線形モデルを超えて非線形アーキテクチャにも拡張されるか。

主な発見

自然な設定では、SGDの初期の利得はデータと相関する線形分類器に大きく起因する。
初期段階の後も、SGDは単純な線形モデルとの相関を維持し、訓練誤差をゼロにするまで訓練が進んでも相関を保つ。
相互情報量ベースの指標は、初期の線形成分が早期の性能の多くを、ランダムなベースラインよりも説明できることを示している。
SGDが線形分類器を超える範囲で、単純な成分を保持しつつ複雑さを増す関数を学習するという証拠がある。
本論文は、単純な分類器から始めると、訓練セットを過剰適合させても母集団精度が最適になるという、単純な理論的設定（定理1）を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。