QUICK REVIEW

[論文レビュー] The Power of Depth for Feedforward Neural Networks

Ronen Eldan, Ohad Shamir|arXiv (Cornell University)|Dec 12, 2015

Machine Learning and Algorithms参考文献 18被引用数 215

ひとこと要約

この論文は、入力次元 d に対して指数関数的に増加する幅が必要でない限り、3層のフィードフォワードニューラルネットワークで計算可能な ℝᵈ 上の単純な径方向関数が、任意の2層ネットワークによって定数誤差より良く近似できないことを示している。この結果は、標準的な活性化関数（ReLU、シグモイド、しきい値関数）すべてに対して成り立ち、全結合フィードフォワードネットワークにおいて、表現能力において深さが幅よりも指数的優位性を示すことを形式的に確立する。

ABSTRACT

We show that there is a simple (approximately radial) function on $ eals^d$, expressible by a small 3-layer feedforward neural networks, which cannot be approximated by any 2-layer network, to more than a certain constant accuracy, unless its width is exponential in the dimension. The result holds for virtually all known activation functions, including rectified linear units, sigmoids and thresholds, and formally demonstrates that depth -- even if increased by 1 -- can be exponentially more valuable than width for standard feedforward neural networks. Moreover, compared to related results in the context of Boolean functions, our result requires fewer assumptions, and the proof techniques and construction are very different.

研究の動機と目的

フィードフォワードニューラルネットワークの表現力において、深さが幅よりも根本的に優位性を示すかどうかを調査すること。
3層ネットワークが、幅が指数的に増加する2層ネットワークでしか近似できない関数を計算できることを形式的に確立すること。
幅と深さに上限がある制約下で、浅いネットワークと深いネットワークの表現能力を分析すること。
標準的な活性化関数に対して、深さがたとえ1層のみであっても、幅よりも指数的優位性を示すことを実証すること。
ReLU、シグモイド、しきい値関数を含む広範な活性化関数クラスに一般に適用可能な結果を提供すること。

提案手法

1-Lipschitzかつ_compact_に台を持つ径方向関数 f(‖x‖) を、符号付き・スケーリング済み・シフトされたReLUに類似したニューロンの和を用いて構築する。
2段階の近似を用いる：まず、幅が有界な2層ネットワークを用いて1変数関数を近似し、次にそれをd次元の径方向関数に拡張する。
カーネルに基づく構成を用いて、g(x) = ∑ᵢ εᵢ gᵢ(‖x‖) を作成し、各gᵢが3層ネットワークであるようにし、その和が2層ネットワークでは近似不可能であることを保証する。
2層ネットワークの普遍近似性（仮定1）を適用し、構築された関数を近似する任意の2層ネットワークが、dに関して指数関数的に増加する幅を必要とすることを示す。
L₂(μ)空間における三角不等式を用いて、2段階の近似誤差（符号付き関数の和の近似誤差と径方向関数の近似誤差）を組み合わせる。
任意の2層ネットワークと構築された3層関数との間のL₂(μ)距離に下界を導出し、幅がdに関して指数関数的に増加しない限り、そのような2層ネットワークでは定数誤差内に近似できないことを証明する。

実験結果

リサーチクエスチョン

RQ13層フィードフォワードニューラルネットワークは、幅が任意に大きくても、2層ネットワークでは近似できない関数を計算できるか？
RQ23層ネットワークで小さな幅で表現可能な関数を、2層ネットワークが近似するために必要な最小幅は何か？
RQ3フィードフォワードネットワークにおいて、深さが幅よりも指数的優位性を示すか？
RQ4この深さの優位性は、ReLU、シグモイド、しきい値関数を含むすべての標準的活性化関数に成立するか？
RQ5ℝᵈ 上の径方向関数を、3層ネットワークによる表現が2層ネットワークでは指数的幅を要しない限り近似不可能であるように構築できるか？

主な発見

ℝᵈ 上に、定数幅（dに依存しない）の3層フィードフォワードネットワークで計算可能な径方向関数 f(‖x‖) が存在するが、その関数は、幅がdに関して指数関数的に増加しない限り、任意の2層ネットワークでは定数誤差内に近似できない。
近似誤差の下界は、Assumption 1 を満たすすべての標準的活性化関数（ReLU、シグモイド、しきい値関数を含む）に対して成り立つ。
構築された3層関数を近似する任意の2層ネットワークの必要幅は exp(Ω(d)) に成長するため、2層と3層ネットワークの間で幅に指数的分離が生じることを示している。
証明は、幅が最大 C′cσ d¹⁹ᐟ⁴ である3層ネットワークで表現可能な関数 g(x) を構築する。ここで cσ は活性化関数に依存する定数、C′ は普遍定数である。
任意の2層ネットワークと構築された3層関数との間のL₂(μ)距離は δ₁/2 > 0 に下界を持つため、幅が指数関数的に増加しない限り、その誤差内に近似できないことが証明される。
活性化関数に対しては最小限の仮定しか必要とせず、有界領域上の1変数Lipschitz関数の普遍近似性を満たす限りで十分である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。