QUICK REVIEW

[論文レビュー] A Universal Approximation Theorem of Deep Neural Networks for Expressing Distributions.

Yulong Lu, Jianfeng Lu|arXiv (Cornell University)|Apr 19, 2020

Adversarial Robustness in Machine Learning参考文献 44被引用数 18

ひとこと要約

本稿は、確率分布生成の文脈において、深層ニューラルネットワークの普遍的近似定理を確立する。弱い条件下で、ReLUネットワーク $g$ を構築可能であり、$p_z$ のプッシュフォワードが $\nabla g$ を通して任意のターゲット分布 $\pi$ に任意に近づける。近似誤差は、1- Wasserstein、MMD、KSDの不一致に基づいてバインドされ、MMDおよびKSDに関しては次元 $d$ に対してネットワークサイズが多項式的に増加するが、1-Wassersteinに関しては指数的に増加する。

ABSTRACT

This paper studies the universal approximation property of deep neural networks for representing probability distributions. Given a target distribution $\pi$ and a source distribution $p_z$ both defined on $\mathbb{R}^d$, we prove under some assumptions that there exists a deep neural network $g:\mathbb{R}^d ightarrow \mathbb{R}$ with ReLU activation such that the push-forward measure $( abla g)_\# p_z$ of $p_z$ under the map $ abla g$ is arbitrarily close to the target measure $\pi$. The closeness are measured by three classes of integral probability metrics between probability distributions: $1$-Wasserstein distance, maximum mean distance (MMD) and kernelized Stein discrepancy (KSD). We prove upper bounds for the size (width and depth) of the deep neural network in terms of the dimension $d$ and the approximation error $\varepsilon$ with respect to the three discrepancies. In particular, the size of neural network can grow exponentially in $d$ when $1$-Wasserstein distance is used as the discrepancy, whereas for both MMD and KSD the size of neural network only depends on $d$ at most polynomially. Our proof relies on convergence estimates of empirical measures under aforementioned discrepancies and semi-discrete optimal transport.

研究の動機と目的

任意の確率分布を表現する深層ニューラルネットワークの普遍的近似性質を確立すること。
さまざまな積分確率距離を用いた場合に、ターゲット分布 $\pi$ を近似するためのReLUネットワークの必要サイズ（幅および深さ）を分析すること。
異なる不一致測度における次元 $d$ および近似誤差 $\varepsilon$ に対するネットワークサイズの依存関係を比較すること。
MMDおよびKSDに関しては、ネットワークサイズが $d$ に対して多項式的であるのに対し、1-Wassersteinでは指数的であることを示すこと。

提案手法

ソース分布 $p_z$ のプッシュフォワードが $\nabla g$ を通じてターゲット分布 $\pi$ に近づくような、深層ReLUニューラルネットワーク $g: \mathbb{R}^d \to \mathbb{R}$ を構築する。
1-Wasserstein、MMD、KSDにおける経験的測度の収束見積もりを用いて、近似誤差をバインドする。
半離散的最適輸送理論を活用し、$p_z$ を $\pi$ に押し出す勾配写像 $\nabla g$ を構築する。
各不一致測度に関して、次元 $d$ および所望の近似誤差 $\varepsilon$ の関数として、$g$ の幅および深さの上界を導出する。
経験的測度の収束に関する理論的結果を適用し、$(\nabla g)_\# p_z$ と $\pi$ の間の不一致を制御する。
ネットワークサイズがMMDおよびKSDに関しては $d$ に対して多項式的であるのに対し、1-Wasserstein距離に関しては指数的であることを確立する。

実験結果

リサーチクエスチョン

RQ1深層ReLUニューラルネットワークは、$\nabla g$ を通じてソース分布 $p_z$ のプッシュフォワードにより、任意のターゲット確率分布 $\pi$ を普遍的に近似可能か？
RQ21-Wasserstein距離を用いた場合、ネットワークの必要サイズは次元 $d$ および近似誤差 $\varepsilon$ に対してどのようにスケーリングされるか？
RQ3MMDまたはKSDを不一致測度として用いた場合、ネットワークサイズは $d$ に対して多項式的か、指数的か？
RQ4積分確率距離の観点から、近似誤差に対してどのような理論的保証を導出できるか？

主な発見

1-Wasserstein距離に関しては、与えられた近似誤差 $\varepsilon$ に対して、必要となる深層ニューラルネットワークのサイズが次元 $d$ に対して指数的に増加する。
MMDおよびKSDの両方において、ネットワークサイズは $d$ に対して多項式的であると示され、1-Wassersteinに比べてはるかに優れたスケーリング特性を示している。
本稿では、$ (\nabla g)_\# p_z $ が、3つの不一致測度すべてにおいて $\pi$ から $\varepsilon$ 以内に近づくようなReLUネットワーク $g$ の存在を証明している。
この構築は、経験的測度の収束見積もりと半離散的最適輸送理論に依拠しており、これらが近似誤差のバインドに用いられている。
理論的枠組みにより、各不一致測度について、$d$ および $\varepsilon$ の関数としてのネットワークの幅および深さの明示的上界が得られている。
本稿の結果は、分布生成の文脈において、深層ネットワークの普遍的近似性質を確立しており、不一致測度の選択に応じて異なるスケーリング特性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。