[論文レビュー] On the number of inference regions of deep feed forward networks with piece-wise linear activations
この論文は、計算幾何学を用いて、ReLU活性化関数を備えた深層順伝播ネットワークの表現的複雑度を分析する。k層で各層にnユニットを有する深層ネットワークは、kn個の隠れユニットを有する浅層ネットワークよりも指数的に多くの線形領域を生成でき、その数はΩ((n/n₀)^{k−1}n^{n₀})であるのに対し、浅層ネットワークはO(k^{n₀}n^{n₀})のスケーリングを示す。深さが増加するか、幅が入力サイズの2倍を超えると、表現的容量に明確な優位性が得られることが示された。
Abstract: This paper explores the complexity of deep feed forward networks with linear pre-synaptic couplings and rectified linear activations. This is a contribution to the growing body of work contrasting the representational power of deep and shallow network architectures. In particular, we offer a framework for comparing deep and shallow models that belong to the family of piecewise linear functions based on computational geometry. We look at a deep rectifier multi-layer perceptron (MLP) with linear outputs units and compare it with a single layer version of the model. In the asymptotic regime, when the number of inputs stays constant, if the shallow model has $kn$ hidden units and $n_0$ inputs, then the number of linear regions is $O(k^{n_0}n^{n_0})$. For a $k$ layer model with $n$ hidden units on each layer it is $\Omega(\left( {n}/{n_0} ight)^{k-1}n^{n_0})$. $\left({n}/{n_0} ight)^{k-1}$ grows faster then $k^{n_0}$ when either $n$ goes to infinity or $k$ goes to infinity and $n > 2n_0$. We consider this as a first step towards understanding the complexity of these models and specifically towards providing suitable mathematical tools for future analysis.
研究の動機と目的
- 分段線形活性化関数を備えた深層順伝播ネットワークの表現的複雑度を理解すること。
- 幾何的解析を用いて、深層と浅層アーキテクチャにおける線形領域の数を比較すること。
- 深層ネットワークの表現的容量を分析するための数学的ツールを確立すること。
- 深さと幅が、ReLUネットワークにおける線形領域の数にどのように共同で影響を与えるかを調査すること。
提案手法
- 計算幾何学を用いて、深層ReLUネットワークを分段線形関数としてモデル化すること。
- 線形出力ユニットを備えた深層マルチレイヤーパーセプトロン(MLP)における線形領域の数を分析すること。
- 同等のパラメータ数を有するk層の深層ネットワークと1層の浅層ネットワークとの間で、線形領域の数を比較すること。
- 固定された入力次元n₀と変化する深さkまたは幅nを用いた漸近的解析を行うこと。
- 組合せ幾何学的手法を用いて、線形領域の数の上界および下界を導出すること。
- 異なるスケーリング規則下での領域数の増加率を比較するためのフレームワークを適用すること。
実験結果
リサーチクエスチョン
- RQ1深層ReLUネットワークにおける線形領域の数は、深さと幅が浅層ネットワークと比較してどのようにスケーリングされるか?
- RQ2k層で各層にnユニットを有する深層ネットワークにおける線形領域の数の漸近的増加率は何か?
- RQ3深さまたは幅を増加させることで、浅層モデルと比較して線形領域の数に超多項式的増加が生じるか?
- RQ4同じパラメータ予算のもとで、深層ネットワークの領域数が浅層ネットワークを上回る条件は何か?
主な発見
- kn個の隠れユニットとn₀個の入力を持つ浅層ネットワークにおける線形領域の数は、O(k^{n₀}n^{n₀})で上限が与えられる。
- 各層にnユニットを有するk層の深層ネットワークでは、線形領域の数はΩ((n/n₀)^{k−1}n^{n₀})以上である。
- n > 2n₀であり、かつnまたはkが増加する場合、(n/n₀)^{k−1}はk^{n₀}よりも速く増加するため、深さに優位性がある。
- 同じパラメータ予算のもとで、深層ネットワークの領域数は浅層モデルに対して超多項式的に増加する。
- 結果から、深さが線形領域の複雑度という観点で顕著な表現的優位性を提供することが示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。