QUICK REVIEW

[論文レビュー] A Universal Approximation Theorem of Deep Neural Networks for Expressing Probability Distributions

Yulong Lu, Jianfeng Lu|arXiv (Cornell University)|Apr 19, 2020

Generative Adversarial Networks and Image Synthesis被引用数 34

ひとこと要約

本論文は、ReLU のディープニューラルネットワークがソース分布をプッシュフォワードしてターゲット分布を三つのIPM（Wasserstein、MMD、KSD）下で近似できることを、明示的なネットワークサイズの上限とともに示す。Wasserstein には次元の呪いがある一方、MMDとKSDは次元に対して多項式的にスケールする。

ABSTRACT

This paper studies the universal approximation property of deep neural networks for representing probability distributions. Given a target distribution $π$ and a source distribution $p_z$ both defined on $\mathbb{R}^d$, we prove under some assumptions that there exists a deep neural network $g:\mathbb{R}^d ightarrow \mathbb{R}$ with ReLU activation such that the push-forward measure $( abla g)_\# p_z$ of $p_z$ under the map $ abla g$ is arbitrarily close to the target measure $π$. The closeness are measured by three classes of integral probability metrics between probability distributions: $1$-Wasserstein distance, maximum mean distance (MMD) and kernelized Stein discrepancy (KSD). We prove upper bounds for the size (width and depth) of the deep neural network in terms of the dimension $d$ and the approximation error $\varepsilon$ with respect to the three discrepancies. In particular, the size of neural network can grow exponentially in $d$ when $1$-Wasserstein distance is used as the discrepancy, whereas for both MMD and KSD the size of neural network only depends on $d$ at most polynomially. Our proof relies on convergence estimates of empirical measures under aforementioned discrepancies and semi-discrete optimal transport.

研究の動機と目的

DNN がプッシュフォワードによって複雑なターゲット分布を表現できることを動機づけ、形式化する。
IPM の下で分布を近似するための明示的な複雑さの境界（深さ/幅）を提供する。
経験的測度、半離散最適輸送、および DNN を結ぶ構成的枠組みを構築する。
Wasserstein、MMD、KSD の三つの IPM に対する近似性能を比較する。

提案手法

ターゲット分布を経験的測度として表現し、IPM 下でその近似誤差を界する。
半離散最適輸送を用いて、連続的なソースから離散的なターゲットへの最適写像が、区分的にアフィンポテンシャルの勾配で与えられることを示す。
このポテンシャルは深さ ~log n、幅 ~2^log n の ReLU DNN に正確に表現できることを示す。
Brenier 輸送写像をニューラルネットワークと関連付けることで、明示的なネットワーク構成を提供する。
使用する IPM（Wasserstein、MMD、KSD）に応じて、必要な n（よって深さ/幅）の複雑性境界を導出する。
各 IPM 下での経験的測度の収束速度を証明する（Wasserstein: n^-1/d、MMD: n^-1/2、KSD: sqrt(d/n)）。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークを用いた輸送写像は、一般的な IPM の下でソース分布をターゲット分布に近似するようにプッシュフォワードできるか。
RQ2DNN が Wasserstein、MMD、KSD 指標で任意の近似精度を達成するための深さ/幅の要件は何か。
RQ3各 IPM における経験的測度の収束速度は、ニューラルネット表現力の文脈でどう振る舞うか。
RQ4半離散最適輸送を用いて NN パラメータ化の輸送写像を構築するにはどうすればよいか。
RQ5Brenier ポテンシャルの構造は、輸送写像を NN 表現で可能にするのか。

主な発見

勾配が p_z を ε 以内に π に近づけるように、R^d から R へ写像する ReLU DNN が存在する。
Wasserstein 距離について、与えられた ε を達成する場合、次元とともにネットワークサイズは指数関数的に増加する。
MMD について、ε 精度を達成するには、ネットワークサイズは次元 d に対して多項式的に依存する。
KSD について、ε 精度を達成するには、ネットワークサイズは少なくとも多項式的に次元 d に対応する。
輸送写像は、有限個のアフィン関数の最大值であるポテンシャルの勾配として明示的に表現され、NN 表現を可能にする。
経験的測度は W1、MMD、KSD の下で π に収束し、定量的な速度と高確率境界を提供し、ニューラル輸送写像の構築に情報を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。