QUICK REVIEW

[論文レビュー] Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes

Lei Wu, Zhanxing Zhu|arXiv (Cornell University)|Jun 30, 2017

Stochastic Gradient Optimization Techniques参考文献 19被引用数 126

ひとこと要約

本論文は、深層学習における一般化が主に損失ランドスケープの幾何によるものであり、良い極小点は大きな盆地を占めるためランダム初期化がそれらに落ちる、ということを主張する；2-layer nets に対する理論と、深層 nets に対する広範な実証的証拠を提供する。

ABSTRACT

It is widely observed that deep learning models with learned parameters generalize well, even with much more model parameters than the number of training samples. We systematically investigate the underlying reasons why deep neural networks often generalize well, and reveal the difference between the minima (with the same training error) that generalize well and those they don't. We show that it is the characteristics the landscape of the loss function that explains the good generalization capability. For the landscape of loss function for deep networks, the volume of basin of attraction of good minima dominates over that of poor minima, which guarantees optimization methods with random initialization to converge to good minima. We theoretically justify our findings through analyzing 2-layer neural networks; and show that the low-complexity solutions have a small norm of Hessian matrix with respect to model parameters. For deeper networks, extensive numerical evidence helps to support our arguments.

研究の動機と目的

過剰なパラメータ化にもかかわらず、深層ニューラルネットワークがなぜよく一般化するのかを説明する。
同じ訓練誤差を持つ良い極小点と悪い極小点を区別する。
ランダム初期化からの最適化がなぜ良い極小点を見つける傾向があるのかを説明する。
経験的観測を損失関数の理論的なランドスケープ特性と結びつける。

提案手法

ダイナミカルシステムのアトラクター盆地概念を用いて損失ランドスケープを分析する。
ヘシアンベースの指標を開発し、盆地体積と解の複雑さを定量化する。
2-layer networks を理論的に分析し、低複雑性解と小さなヘシアンノルムの関係を示す。
Hessianスペクトルと近似ヘシアンノルムを用いた深いネットワークに関する実証的証拠を提供する。
同じ訓練誤差を持つが一般化が乏しい悪い極小点を生成する攻撃データ設定を導入する。

実験結果

リサーチクエスチョン

RQ1同じ訓練誤差を持つ良い（良く一般化する）極小点と悪い極小点を区別する性質は何か？
RQ2ランダム初期化を用いる最適化法が深層ネットワークではなぜほぼ確実に良い極小点に収束するのか？
RQ3損失ランドスケープの幾何は良い盆地が悪い盆地よりどの程度出現しやすくなるかにどのように影響するか？
RQ4初期化、最適化ダイナミクス、ランドスケープ構造が一般化に寄与する程度はどの程度か？

主な発見

良い極小点は大きな引力盆地を占有する；これらの盆地の体積が悪い極小点よりも優位である。
ランダム初期化はパラメータを圧倒的な確率で良い盆地に配置し、良く一般化する解へと収束する。
2-layer networks の低複雑性解はヘシアンノルムが小さく、盆地が大きく平坦な領域を示している。
SGD のみが良い一般化の唯一の原因ではない；ランドスケープ構造が主に結果を支配する。
経験的ヘシアンスペクトル分析は、良い極小点が多くのほぼゼロ固有値を持つ広い谷にあり、悪い極小点はより大きな固有値を持つ締まった谷にあることを示す。
ヘシアンのスペクトル推定は、小規模および大規模ネットワークでの一般化性能と相関がある。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。