QUICK REVIEW

[論文レビュー] The power of deeper networks for expressing natural functions

David Rolnick, Max Tegmark|arXiv (Cornell University)|May 16, 2017

Neural Networks and Applications参考文献 16被引用数 90

ひとこと要約

本論文は、深いフィードフォワードネットワークが自然多項式を浅いものよりはるかに効率的に表現できることを証明します。深層ネットではニューロン数が n に対して線形に増加するのに対し、単一隠れ層のネットでは指数的に増加します；層を増やすことで、層数 k を増やすとおおよそ n^{1/k} のスケーリングで指数的な節約が得られます。

ABSTRACT

It is well-known that neural networks are universal approximators, but that deeper networks tend in practice to be more powerful than shallower ones. We shed light on this by proving that the total number of neurons $m$ required to approximate natural classes of multivariate polynomials of $n$ variables grows only linearly with $n$ for deep neural networks, but grows exponentially when merely a single hidden layer is allowed. We also provide evidence that when the number of hidden layers is increased from $1$ to $k$, the neuron requirement grows exponentially not with $n$ but with $n^{1/k}$, suggesting that the minimum number of layers required for practical expressibility grows only logarithmically with $n$.

研究の動機と目的

深いネットワークが自然な関数を表現する際に、なぜ浅いネットワークより優れているのかを理論的に理解する動機づけ。
さまざまな深さのネットワークで多変量多項式を近似する際のリソース要件（ニューロン数）を定量化する。
疎な多項式や自然関数に対して、深さが必用ニューロン数を劇的に削減することを示す。
入力次元 n および多項式の疎性に対して、必要な最小レイヤ数がどのように増加するかを検討する。

提案手法

深さ k を持つ N(x)=A_k σ(... σ(A_0 x)) としてニューラルネットワークをモデル化する。
表現力を分析するために epsilon-uniform 近似と Taylor 近似を用いる。
次数 d の多項式で、次数 d までの非零 Taylor 係数を持つ場合、最小ニューロン数 m^ε_k(p) は ε→0 のとき有限な極限に収束することを証明する。
単項式に対して m^uniform_1(p) = ∏_i (r_i+1) を示す上界を導出し、m^uniform(p) は ∑_i (7⌈log2(r_i)⌉+4) にスケールする。
1変数および多変数の多項式、さらに c 個の単項式を持つ疎な多項式に対して解析を拡張する。
積の深さ-k 表現を境界づけるための Taylor に基づく構成的手法を提案し、p = x_1 x_2 ... x_n に対して m^uniform_k(p) = O(n^{(k-1)/k} 2^{n^{1/k}}) を得る。

実験結果

リサーチクエスチョン

RQ1多変量多項式を近似するために必要なニューロン数は、ネットワークの深さにどう依存するか。
RQ2自然多項式関数に対して、浅いネットワークと深いネットワークの間に指数的な効率差があるか。
RQ3入力次元 n および多項式の疎性とともに、最低限必要なレイヤ数がどうスケールするか。
RQ4疎な多項式は、浅いアーキテクチャと比べて深いアーキテクチャで大幅に少ないニューロン数で表現できるか。
RQ5入力の積を近似する深さ-k ネットワークに対する具体的な構成的境界は何か。

主な発見

次数 d の多変量多項式で、次数 d までの非零 Taylor 係数を持つ場合、m^ε_1(p) ≤ ∏_i (r_i+1)。
同じ多項式について、m^uniform(p) ≤ ∑_i (7⌈log2(r_i)⌉+4)。
単項式および疎な多項式に対して、uniform (および Taylor) 近似の下で浅い表現と深い表現の間に指数的ギャップが存在する。
1変数の次数 d の多項式について、m^Taylor_1(p) ≤ d+1、一方 m^uniform(p) は d に対して対数的に保つことができる。
p = x1 x2 ... xn に対して、m^uniform_k(p) = O(n^{(k-1)/k} 2^{n^{1/k}}) を満たし、深さを増やすと資源要件が劇的に削減されることを示している。
経験的には、境界 n^{1/k} がレイヤの幅を実現可能なサイズ（例: 2^{10}）程度に保つために必要な層数を指針として示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。