QUICK REVIEW

[論文レビュー] Universal Approximation with Deep Narrow Networks

Patrick Kidger, Terry Lyons|arXiv (Cornell University)|May 21, 2019

Neural Networks and Applications参考文献 28被引用数 29

ひとこと要約

この論文は、任意の非線形連続活性化関数（導関数がどこかの点で消えないもの）を用い、幅 $n + m + 2$ の深さ有限の狭いニューラルネットワークが、コンパクト領域上での $\mathbb{R}^n$ から $\mathbb{R}^m$ への任意の連続関数を普遍的に近似可能であることを確立している。これは、実用的な活性化関数（多項式を含む）をカバーし、浅く広いネットワークとは根本的に異なる性質を示している。

ABSTRACT

The classical Universal Approximation Theorem holds for neural networks of arbitrary width and bounded depth. Here we consider the natural `dual' scenario for networks of bounded width and arbitrary depth. Precisely, let $n$ be the number of inputs neurons, $m$ be the number of output neurons, and let $ρ$ be any nonaffine continuous function, with a continuous nonzero derivative at some point. Then we show that the class of neural networks of arbitrary depth, width $n + m + 2$, and activation function $ρ$, is dense in $C(K; \mathbb{R}^m)$ for $K \subseteq \mathbb{R}^n$ with $K$ compact. This covers every activation function possible to use in practice, and also includes polynomial activation functions, which is unlike the classical version of the theorem, and provides a qualitative difference between deep narrow networks and shallow wide networks. We then consider several extensions of this result. In particular we consider nowhere differentiable activation functions, density in noncompact domains with respect to the $L^p$-norm, and how the width may be reduced to just $n + m + 1$ for `most' activation functions.

研究の動機と目的

幅が有界で深さが任意の深さの深く狭いニューラルネットワークの普遍的近似を確立し、古典的な普遍的近似定理とは双対的な問題に取り組む。
ReLUベースのネットワークに限らない普遍的近似結果を、多項式関数や至る所微分不能関数を含むすべての実用的活性化関数にまで拡張する。
普遍的近似に必要な最小幅を特定し、『大多数の』活性化関数に対しては $n + m + 1$ 個のニューロンで十分であることを示す。
コンパクト集合上の一様収束にとどまらず、非コンパクト領域における $L^p$ ノルム下での普遍的近似へと結果を一般化する。
ReLUの代数的構造などの特定の活性化関数の性質に依存しない手法を提供することで、理論的適用範囲を広げる。

提案手法

線形写像と活性化関数の合成を正確に表現できる『強化されたニューロン』の概念を導入し、関数近似の制御を可能にする。
レジスタモデルを用いて、適切に構築されたニューロンの系列により恒等関数および定数関数をシミュレートし、複雑な関数クラスの模倣を可能にする。
ある点で導関数が消えない非アフィン連続活性化関数を用いて、コンパクト集合上で恒等関数を一様近似可能であることを証明する。
Stone–Weierstrassの定理と密度論的議論を用い、深く狭いネットワークが表現可能な関数の集合が $C(K; \mathbb{R}^m)$ で稠密であることを示す。
カットオフ関数の正確なニューラル表現（max/min 操作を用いて）とコンパクト近似を組み合わせることで、$L^p$ 空間への拡張を実現する。
小規模な線形変換と高周波数の振動を用いた摂動論法を適用し、至る所微分不能な活性化関数に対しても恒等関数を近似可能であることを示す。

実験結果

リサーチクエスチョン

RQ1幅が有界で深さが任意の深さの深く狭いネットワークが、任意の非アフィン活性化関数を用いて、コンパクト領域上での連続関数を普遍的に近似可能か？
RQ2多項式活性化関数は、古典的普遍的近似定理では除外されるが、その場合でも普遍的近似性が成立するか？
RQ3『大多数の』活性化関数に対して、普遍的近似に必要な最小幅を $n + m + 2$ から $n + m + 1$ に削減可能か？
RQ4非コンパクト領域において、深く狭いネットワークを用いて $L^p$ 空間で普遍的近似が可能か？
RQ5ワイエルシュトラス型関数のような至る所微分不能な活性化関数に対しても理論を拡張可能か？

主な発見

幅 $n + m + 2$ で、ある点で導関数が消えない任意の非アフィン連続活性化関数を用いる深く狭いネットワークは、$\mathbb{R}^n$ のコンパクト集合 $K$ に対して $C(K; \mathbb{R}^m)$ で稠密である。
この結果は、古典的普遍的近似定理で除外される多項式活性化関数を含んでおり、深く狭いネットワークと浅く広いネットワークの間で本質的な違いを示している。
『大多数の』活性化関数に対して、普遍的近似に必要な最小幅は $n + m + 1$ であり、$n + m + 2$ よりも小さいことが、命題 3.1 の精密な構成により示された。
至る所微分不能な活性化関数に対しても、恒等関数をコンパクト集合上で一様近似可能な『強化されたニューロン』を構築することで、この手法が有効である。
$L^p(\mathbb{R}^n; \mathbb{R}^m)$（$p \in [1, \infty)$）において普遍的近似が成立する。これは、コンパクト近似と max/min 层によるカットオフ関数の正確なニューラル表現を組み合わせることで達成された。
証明は ReLU やその他の特定の活性化関数の代数的性質に依存せず、深層学習で実用的に用いられるすべての活性化関数に一般化可能で、強固である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。