[論文レビュー] On the ability of neural nets to express distributions
本稿は、関数のフーリエ特性に基づき、$ n $ 隠れ層をもつ深層ニューラルネットワークによる関数近似の十分条件を確立する。各関数が有界なフーリエエネルギーを持つバロン関数の合成関数は、$ n+1 $ 層ネットワークによって近似可能であり、これは Wasserstein 距離における深層生成モデルの表現力の背後にある要因を説明する。
Deep neural nets have caused a revolution in many classification tasks. A related ongoing revolution -- also theoretically not understood -- concerns their ability to serve as generative models for complicated types of data such as images and texts. These models are trained using ideas like variational autoencoders and Generative Adversarial Networks. We take a first cut at explaining the expressivity of multilayer nets by giving a sufficient criterion for a function to be approximable by a neural network with $n$ hidden layers. A key ingredient is Barron's Theorem \cite{Barron1993}, which gives a Fourier criterion for approximability of a function by a neural network with 1 hidden layer. We show that a composition of $n$ functions which satisfy certain Fourier conditions ("Barron functions") can be approximated by a $n+1$-layer neural network. For probability distributions, this translates into a criterion for a probability distribution to be approximable in Wasserstein distance -- a natural metric on probability distributions -- by a neural network applied to a fixed base distribution (e.g., multivariate gaussian). Building up recent lower bound work, we also give an example function that shows that composition of Barron functions is more expressive than Barron functions alone.
研究の動機と目的
- 画像やテキストのような複雑なデータ分布の生成モデルとして深層ニューラルネットワークが有効である理由を理解すること。
- 浅層アーキテクチャを越えて、深層ネットワークの表現力の理論的基盤を提供すること。
- フーリエ解析を用いて、$ n $ 隠れ層をもつ深層ニューラルネットワークによる関数近似の十分条件を確立すること。
- バロン関数の合成と、確率分布の生成における深層ネットワークの表現力の関係を明らかにすること。
- バロン関数とその合成の間の表現力に明確な階層があるかを示し、より深いネットワークがより複雑な分布をモデル化できることを示すこと。
提案手法
- バロンの定理 [Bar93] を基盤とし、単一の隠れ層ネットワークによる関数近似のフーリエ基準を提供する。
- バロンの結果を深層ネットワークへ拡張し、各関数がバロンのフーリエ条件を満たす $ n $ 個の関数の合成が、$ n+1 $ 層ネットワークによって近似可能であることを示す。
- 生成された確率分布の近似品質を測る指標として Wasserstein 距離 $ W_2 $ を用いる。
- 適切に選ばれたコンパクトなフーリエサポートを持つバンプ関数 $ g $ を用いてバロン定数の下界を導出し、表現力の指数的分離を証明する技術を導入する。
- 任意の拡張に依存しないように、関数 $ f $ のバロン定数を $ ( abla f)g $ のフーリエ変換の $ L^1 $ ノルムを介して双対的表現で評価する。
- 高次元関数 $ f(x) = f_1( orm{x}) $ をノルムの二乗関数と一変数関数に分解し、適切な条件下で両者がバロン関数であることを示す。
実験結果
リサーチクエスチョン
- RQ1深層ニューラルネットワークは、浅層ネットワークよりも複雑な確率分布をより効率的に近似できるか?
- RQ2関数が $ n $ 隠れ層をもつ深層ニューラルネットワークによって近似可能であるための十分条件は何か?
- RQ3バロン関数の合成は、深層ネットワークの表現力とどのように関係するか?
- RQ4$ n $ 個のバロン関数の合成と $ n+1 $ 個のバロン関数の合成の間には、表現力に明確な階層があるか?
- RQ5フーリエ基準を用いて、深層ネットワークと浅層ネットワークの表現能力を正式に分離できるか?
主な発見
- $ n $ 個のバロン関数の合成である関数は、$ W_2 $ ワルシャワ距離において $ n+1 $ 層のニューラルネットワークによって近似可能である。
- バロン定数の下界は、コンパクトにサポートを持つ関数 $ g $ を用いた双対的表現によって得られ、指数的下界の導出を可能にする。
- $ n \neq 3 \bmod 4 $ の場合、特定のパrameterをもつ関数 $ f(x) = f_1(\norm{x}) $ は、$ n $ に対して指数的に増加するバロン定数をもつことがあり、高次元の複雑さを示す。
- 関数 $ f(x) = f_1(\norm{x}) $ は、$ x \to \norm{x}^2 $ と $ y \to f_1(\norm{y}) $ の2つのバロン関数の合成として表現可能であり、両者とも多項式的に有界なバロン定数をもつ。
- 指数的に大きなバロン定数(したがって浅層ネットワークでは近似不可能)をもつ関数が、2つのバロン関数の合成として構成可能であることが証明された。
- この結果は、深層ネットワークが、浅層ネットワークですら指数的に多くのパラメータをもつ場合でさえ、表現できない分布をモデル化できることを示唆している。これは、フーリエ有界関数の階層的合成に起因する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。