Skip to main content
QUICK REVIEW

[論文レビュー] Approximating Continuous Functions by ReLU Nets of Minimal Width

Boris Hanin, Mark Sellke|arXiv (Cornell University)|Oct 31, 2017
Neural Networks and Applications参考文献 18被引用数 143
ひとこと要約

本論文は ReLU ネットが d_in 個の変数からなる任意の連続関数を近似するのに必要な最小の隠れ層幅を決定し、閾値が d_in+1 であることを示し、上界として d_in+d_out を提供する。

ABSTRACT

This article concerns the expressive power of depth in deep feed-forward neural nets with ReLU activations. Specifically, we answer the following question: for a fixed $d_{in}\geq 1,$ what is the minimal width $w$ so that neural nets with ReLU activations, input dimension $d_{in}$, hidden layer widths at most $w,$ and arbitrary depth can approximate any continuous, real-valued function of $d_{in}$ variables arbitrarily well? It turns out that this minimal width is exactly equal to $d_{in}+1.$ That is, if all the hidden layer widths are bounded by $d_{in}$, then even in the infinite depth limit, ReLU nets can only express a very limited class of functions, and, on the other hand, any continuous function on the $d_{in}$-dimensional unit cube can be approximated to arbitrary precision by ReLU nets in which all hidden layers have width exactly $d_{in}+1.$ Our construction in fact shows that any continuous function $f:[0,1]^{d_{in}} o\mathbb R^{d_{out}}$ can be approximated by a net of width $d_{in}+d_{out}$. We obtain quantitative depth estimates for such an approximation in terms of the modulus of continuity of $f$.

研究の動機と目的

  • ReLU ネットが任意の連続関数 f:[0,1]^{d_in} -> R^{d_out} を近似するための最小隠れ層幅 w_min(d_in, d_out) を決定する
  • 隠れ層幅が最大でも d_in である場合、深さに関係なくネットワークの表現力が限定されることを示す
  • 任意の連続関数を近似する幅 d_in+d_out を達成する上界の構成を提供する
  • 幅 d_in+d_out の構成に対して、深さを f の連続性の法モ ω_f の関数として定量化する
  • 普遍近似に必要な幅が少なくとも d_in+1 であることを示す一致する下界を確立する

提案手法

  • スキップ接続なしの ReLU ネットワークにおける w_min(d_in,d_out) 閾値を導入する
  • コンパクト集合上で任意の連続関数を再現する最大-最小文字列構成によって上界 w_min(d_in,d_out) ≤ d_in+d_out を証明する
  • 任意の連続関数 f は、連続性の法 ω_f に依存する深さを持つ幅 d_in+d_out の ReLU ネットワークによってコンパクト集合 K 上で近似できることを示す
  • 命題を利用する:(i)幅 d_in+d_out の ReLU ネットによる max-min 文字列表現(命題 2)および(ii)長さ L = (O(diam(K))/ω_f^{-1}(ε))^{d_in+1} を制御した max-min 文字列による近似(命題 3)
  • より大きな領域への ε-近似を拡張するための幾何的なコーナーカット引数(補題 5)を開発し、深さの境界を導出する
  • 幅 d_in のネットワークでは捕捉できないレベルセット幾何を持つ関数を構築して下界を示し、w_min(d_in,·) ≥ d_in+1 を保証する

実験結果

リサーチクエスチョン

  • RQ1任意の連続関数 f:[0,1]^{d_in} → R^{d_out} を ε-近似させることができる最小隠れ層幅 w_min(d_in, d_out) は何か?
  • RQ2固定幅の隠れ層を持つ ReLU ネットワークにおける普遍近似の鋭い下界は d_in+1 か?
  • RQ3[0,1]^{d_in} 上のすべての連続関数はちょうど幅 d_in+d_out の ReLU ネットで近似できるか、そして必要な深さはどれか?
  • RQ4幅を d_in+d_out に制限したとき、 f の連続性の法 ω_f が近似に必要な深さにどう影響するか?
  • RQ5スキップ接続なしで幅が d_in+1 未満だと普遍近似を達成できない障害は何か?

主な発見

  • ReLU ネットワークによる普遍近似の最小幅はちょうど d_in+1(下界)であり、幅を d_in+d_out までとする上界で達成可能
  • 任意の連続関数 f:[0,1]^{d_in}→R^{d_out} は、深さが ω_f に依存し、hidden widths が d_in+d_out に制限された ReLU ネットによって ε 近似できる
  • 上界の構成は max-min 文字列表現と、深さが (diam(K)/ω_f^{-1}(ε))^{d_in+1} にスケールすることに基づく
  • 密度性の議論により幅 d_in は普遍近接には不十分であり、[0,1]^{d_in} 上のすべての連続関数を近似できない正の η が生じる
  • 彼らの設定ではスキップ接続は許されない;それを許すと幅 1 のネットワークで十分な深さを与えれば任意の連続関数を近似できるようになり、幅の界が自明化する
  • 下界は、幅 d_in のネットワークが普遍近似を妨げるレベルセット幾何を持つ関数を構築することによって確立される;これは ReLU ネットの構造特性と凸/アフィン部分を用いる

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。