Skip to main content
QUICK REVIEW

[論文レビュー] Learning Functions: When Is Deep Better Than Shallow

H. N. Mhaskar, Qianli Liao|arXiv (Cornell University)|Mar 3, 2016
Domain Adaptation and Few-Shot Learning参考文献 25被引用数 105
ひとこと要約

この論文は、深層(階層的)ネットワークが、浅いネットワークと同じ精度で構成的関数を近似できるが、トレーニングパラメータが指数的に少なく、VC次元が小さくなることを示し、Bengioの深さの推定に答える。

ABSTRACT

While the universal approximation property holds both for hierarchical and shallow networks, we prove that deep (hierarchical) networks can approximate the class of compositional functions with the same accuracy as shallow networks but with exponentially lower number of training parameters as well as VC-dimension. This theorem settles an old conjecture by Bengio on the role of depth in networks. We then define a general class of scalable, shift-invariant algorithms to show a simple and natural set of requirements that justify deep convolutional networks.

研究の動機と目的

  • 深さが浅いネットワークより優位性を提供するのはいつか、という問いを動機づける。
  • 構成的関数を近似する際、浅いアーキテクチャと深いアーキテクチャを定量的に比較する。
  • 深いネットのパラメータとVC次元の節約を示す近似境界を確立する。
  • 階層的構成構造を、実用的でスケーラブルでシフト不変な深層畳み込みネットワークへ結びつける。
  • 普遍近似と深さを二分木モデルとガウシアンネットワークを通じて結ぶフレームワークを提供する。

提案手法

  • リッジ関数ユニットの二分木階層として深いネットワークをモデル化する。
  • 対応する滑らかさクラスの関数について、浅い net S_n と深い net D_n の近似力を比較する。
  • 近似速度を証明する: dist(f, S_n) = O(n^{-r/d}) for f in W_{r,d}^{NN} and dist(f, D_n) = O(n^{-r/2}) for f in W_{H,r,d}^{NN}.
  • ガウス性ネットワークへ解析を拡張し、関数空間 W_{r,d}, K-functional based norms K_{r,d}(f,δ), および γ-smooth クラス W_{\,} を定義する。
  • 浅いと二分木深層ネットのVC次元境界を導出し、ファットシャッティング次元と関連付ける。

実験結果

リサーチクエスチョン

  • RQ1階層構造の有無が関数を近似する際に定量的な利点を与えるのはいつで、特に構成的構造を持つ関数でなぜか。
  • RQ2滑らかさの仮定の下で、浅いネットと深いネットの近似速度とパラメータ複雑さはどのようにスケールするか。
  • RQ3階層構造とシフト不変性(畳み込みネットワークのように)は、スケーラブルなアルゴリズムにとって自然として理論的に正当化できるか。
  • RQ4深層階層アーキテクチャのVC次元への影響は浅いものと比較してどうか。
  • RQ5ガウシアンネットワークは類似の仮定の下で深さ関連の改善を示すか。

主な発見

  • 構成的関数に対して、深層ネットは浅層ネットと近似精度を同等に保ちながら、パラメータを指数的に少なくできる。
  • 一般の滑らかな関数に対して、浅いネットは精度 ε を得るのに O(ε^{-d/r}) のパラメータを要する一方、構成的構造に一致する深いネットは O(ε^{-2/r}) のパラメータで済む。
  • 定理の結果は、同じ滑らかさの制約下で、深く階層的な構造の方が浅いものより近接誤差の減衰が速いことを示す。
  • VC次元の境界は、浅いネットと比べて深い二分木ネットワークの方がより厳しい、すなわち複雑さが低いことを反映する。
  • 一般的なフレームワークは、スケーラブルでシフト不変な深い畳み込みネットワークが、画像のような構成的でマルチスケールなデータに自然であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。