QUICK REVIEW

[論文レビュー] The loss surface and expressivity of deep convolutional neural networks

Quynh Nguyen, Matthias Hein|arXiv (Cornell University)|Oct 30, 2017

Adversarial Robustness in Machine Learning参考文献 65被引用数 18

ひとこと要約

この論文は、共有重みとマックスプーリングを備えた広い実用的ディープ畳み込みニューラルネットワーク（CNN）の損失関数の表面と表現力について分析している。CNNの層に訓練サンプルの数より多くのニューロンがある場合、線形独立な特徴量が生成され、このような広いネットワークでは、経験的損失関数のほとんどすべての臨界点が訓練誤差ゼロのグローバルミニマであることを証明している—これは、ネットワークの広さのおかげで最適化の挙動が良好であることを示している。

ABSTRACT

We analyze the expressiveness and loss surface of practical deep convolutional neural networks (CNNs) with shared weights and max pooling layers. We show that such CNNs produce linearly independent features at a layer which has more neurons than the number of training samples. This condition holds e.g. for the VGG network. Furthermore, we provide for such wide CNNs necessary and sufficient conditions for global minima with zero training error. For the case where the wide layer is followed by a fully connected layer, we show that almost every critical point of the empirical loss is a global minimum with zero training error. Our analysis suggests that both depth and width are very important in deep learning. While depth brings more representational power and allows the network to learn high level features, width smoothes the optimization landscape of the loss function in the sense that a sufficiently wide network has a well-behaved loss surface with potentially no bad local minima.

研究の動機と目的

共有重みとマックスプーリングを備えた実用的ディープCNNの表現力と最適化特性を理解すること。
ネットワークの広さが損失関数の表面とグローバルミニマの存在に与える影響を調査すること。
広いCNNがグローバルミニマとともに訓練誤差ゼロを達成する条件を特定すること。
深さと広さがディープラーニングにおける最適化の挙動に果たす補完的役割を明確にすること。

提案手法

訓練サンプルの数より多くのニューロンを持つ隠れ層を仮定した、共有重みとマックスプーリング層を備えたCNNの理論的分析。
広いCNNにおける訓練誤差ゼロのグローバルミニマの必要十分条件の導出。
広い層が全結合層に続く広いCNNでは、経験的損失関数のほとんどすべての臨界点が訓練誤差ゼロのグローバルミニマであることを証明。
線形代数と最適化理論を用いて、広いネットワークにおける損失関数の構造を分析。
ネットワークの広さと経験的損失関数の幾何的性質の相乗的相互作用に焦点を当てる。

実験結果

リサーチクエスチョン

RQ1広いCNNがグローバルミニマとともに訓練誤差ゼロを達成する条件は何か？
RQ2ネットワークの広さはCNNにおける損失関数の幾何的性質にどのように影響するか？
RQ3最適化の挙動を決定づける要因として、広さと深さの役割はそれぞれ何か？
RQ4なぜ広いCNNは、より狭いネットワークよりも悪い局所的ミニマが少ないのか？

主な発見

CNNの層に訓練サンプルの数より多くのニューロンがある場合、線形独立な特徴量が生成される。
訓練サンプルの数より多くのニューロンを持つ広いCNNでは、訓練誤差ゼロのグローバルミニマの必要十分条件が導出された。
広い層が全結合層に続く広いCNNでは、経験的損失関数のほとんどすべての臨界点が訓練誤差ゼロのグローバルミニマである。
ネットワークの広さは損失関数の表面を顕著に滑らかにし、悪い局所的ミニマの出現を減少させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。