Skip to main content
QUICK REVIEW

[論文レビュー] The Expressive Power of Neural Networks: A View from the Width

Lu Zhou, Hongming Pu|arXiv (Cornell University)|Sep 8, 2017
Advanced Memory and Neural Computing参考文献 7被引用数 125
ひとこと要約

幅制約付き ReLU ネットワークは幅 n+4 で Lebesgue 可積分関数を任意の L1 誤差 ε で普遍近似できるが、幅 n ではできず、幅ベースの相転換を明らかにする;本研究は幅の効率性に対する多項式の下界を確立し、支持的な実験を提供する。

ABSTRACT

The expressive power of neural networks is important for understanding deep learning. Most existing works consider this problem from the view of the depth of a network. In this paper, we study how width affects the expressiveness of neural networks. Classical results state that depth-bounded (e.g. depth-$2$) networks with suitable activation functions are universal approximators. We show a universal approximation theorem for width-bounded ReLU networks: width-$(n+4)$ ReLU networks, where $n$ is the input dimension, are universal approximators. Moreover, except for a measure zero set, all functions cannot be approximated by width-$n$ ReLU networks, which exhibits a phase transition. Several recent works demonstrate the benefits of depth by proving the depth-efficiency of neural networks. That is, there are classes of deep networks which cannot be realized by any shallow network whose size is no more than an exponential bound. Here we pose the dual question on the width-efficiency of ReLU networks: Are there wide networks that cannot be realized by narrow networks whose size is not substantially larger? We show that there exist classes of wide networks which cannot be realized by any narrow network whose depth is no more than a polynomial bound. On the other hand, we demonstrate by extensive experiments that narrow networks whose size exceed the polynomial bound by a constant factor can approximate wide and shallow network with high accuracy. Our results provide more comprehensive evidence that depth is more effective than width for the expressiveness of ReLU networks.

研究の動機と目的

  • ReLUネットワークの幅が表現力に深さという観点で知られているものを超えてどのように影響するかを調べる。
  • L1近似に対して n+4 の幅制限のあるネットワークに対する普遍近似定理を証明し、L1近似のための幅閾値を特定する。
  • 広いネットワークを狭いネットワークで近似する際の多項式の下界を確立して、幅効率を検討する。
  • 実験的な証拠を提供し、実用的な幅-深さのトレードオフとネットワーク設計への影響を示す。

提案手法

  • 幅-(n+4)の全結合 ReLU ネットワークを構築し、任意の Lebesgue 可積分関数を任意の L1 誤差 ε で近似する。
  • 対象関数を軸整列された立方体上の指示関数の有限和に分解し、これらの指示を ReLU ベースのブロックで近似する。
  • ブロック単位のネットワーク構造を導入し、立方体全体で近似を格納・和算してグローバル近似を構築する。
  • 幅制約普遍近似定理(定理1)を Constructive なネットワーク設計により証明し、古典的な深さ制約普遍近似と比較する。
  • 広いネットワークを狭いものに近似する際の多項式下界(定理4)を導出して幅効率を分析し、実験的検証を議論する。

実験結果

リサーチクエスチョン

  • RQ1幅制約付き ReLU ネットワークは幅 n+4 で R^n における Lebesgue 可積分関数を L1 距離で普遍近似できるか?
  • RQ2幅が閾値 n から n+1 を超えると表現力に相転換は生じるか?
  • RQ3広いネットワークがあり、狭いネットワークで近似できない場合でも、後者が多項式的に大きいサイズを持たなければならないのか?
  • RQ4実験結果は近似に必要なネットワークサイズと幅の間の多項式的(指数ではなく)トレードオフを支持するか?

主な発見

  • 幅-(n+4) ReLU ネットワークは R^n 上の任意の Lebesgue 可積分関数を任意の L1 精度で近似できる。
  • 測度0の集合を除いて、関数は幅 n の ReLU ネットワークによる L1 近似ができず、相転換を示す。
  • 幅- O(k^2) 深さ3 のネットワークは 幅-O(k^1.5) 深さ-k のネットワークで近似できない、つまり多項式の幅効率下界(定理4)を示す。
  • 実験は、サイズが多項式下界よりわずか大きい狭いネットワークが幅の広い浅いネットワークを高精度で近似できることを示す。
  • 全体として、深さは幅よりも表現力において有効である可能性を示すエビデンスを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。