[論文レビュー] Why Deep Neural Networks for Function Approximation?
本論文は、広範な区分的滑らかな関数のクラスに対して、深層ネットワークが浅いネットワークよりも指数関数的に少ないニューロン数で、所定の近似精度を達成できることを示している。
Recently there has been much interest in understanding why deep neural networks are preferred to shallow networks. We show that, for a large class of piecewise smooth functions, the number of neurons needed by a shallow network to approximate a function is exponentially larger than the corresponding number of neurons needed by a deep network for a given degree of function approximation. First, we consider univariate functions on a bounded interval and require a neural network to achieve an approximation error of $\varepsilon$ uniformly over the interval. We show that shallow networks (i.e., networks whose depth does not depend on $\varepsilon$) require $Ω( ext{poly}(1/\varepsilon))$ neurons while deep networks (i.e., networks whose depth grows with $1/\varepsilon$) require $\mathcal{O}( ext{polylog}(1/\varepsilon))$ neurons. We then extend these results to certain classes of important multivariate functions. Our results are derived for neural networks which use a combination of rectifier linear units (ReLUs) and binary step units, two of the most popular type of activation functions. Our analysis builds on a simple observation: the multiplication of two bits can be represented by a ReLU.
研究の動機と目的
- ニューラルネットワークにおける関数近似で深さが役立つ理由を動機づける。
- 関数クラス全体に対するε近似に必要なネットワークサイズの上界と下界を確立する。
- ReLUと二値階段活性化を用いた一変数・多変数関数について、深さと幅を比較する。
提案手法
- ニューラルネットワークによる関数クラスへのL-infinity(均一)近似境界を提供する。
- ReLUとBSUを用いて二進展開と多項式評価を実装する構成を用いる。
- 上界を導出: 深いネットワークは O(log(1/epsilon)) 層と polylog(1/epsilon) ニューロン、浅いネットは poly(1/epsilon) ニューロンを必要とする。
- 強凸関数について、N >= log(1/epsilon) が必要であることを示す下界を証明する。
実験結果
リサーチクエスチョン
- RQ1与えられた関数をε近似するのに十分な深さとサイズはどれか。
- RQ2固定深さの場合、ε近似を達成するために必要な最小のネットワークサイズはどれか。
- RQ3ReLUおよび二値ステップ活性化の下で、一変数・多変数関数に対する深さとサイズのトレードオフはどうなるか。
- RQ4導出された境界は、区分的滑らかな関数や強凸関数を含む広範な関数クラスに対してシャープか。
- RQ5関数の合成・積・線形結合への結果の拡張はどのようになるか。
主な発見
- 浅いネットワークは、区分的滑らかな一変数関数に対して、有界区間でε近似を達成するには Omega(poly(1/epsilon)) 個のニューロンを必要とする。
- 深さ Theta(log(1/epsilon)) の深いネットワークは、同じε近似のために O(polylog(1/epsilon)) ニューロンを必要とする。
- 微分可能で強凸な関数について、任意の多層ネットワークは ε近似を達成するために Omega(log(1/epsilon)) ニューロンを必要とする。
- 系論として、polylog(1/epsilon) の境界が、滑らかな一変数または多変数関数の加算、乗算、合成へ拡張されることを示す。
- 下界は、述べられた仮定の下で深さに基づく利点がシャープであることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。