[论文解读] A Universal Approximation Theorem of Deep Neural Networks for Expressing Probability Distributions
论文证明,一个 ReLU 深度神经网络可以将源分布通过推前映射为近似目标分布,在 1-Wasserstein、MMD 或 Kernelized Stein Discrepancy 下任意接近,并给出显式的网络规模界限,取决于所选度量。
This paper studies the universal approximation property of deep neural networks for representing probability distributions. Given a target distribution $\\pi$ and a source distribution $p_z$ both defined on $\\mathbb{R}^d$, we prove under some assumptions that there exists a deep neural network $g:\\mathbb{R}^d\ ightarrow \\mathbb{R}$ with ReLU activation such that the push-forward measure $(\ abla g)_\\# p_z$ of $p_z$ under the map $\ abla g$ is arbitrarily close to the target measure $\\pi$. The closeness are measured by three classes of integral probability metrics between probability distributions: $1$-Wasserstein distance, maximum mean distance (MMD) and kernelized Stein discrepancy (KSD). We prove upper bounds for the size (width and depth) of the deep neural network in terms of the dimension $d$ and the approximation error $\\varepsilon$ with respect to the three discrepancies. In particular, the size of neural network can grow exponentially in $d$ when $1$-Wasserstein distance is used as the discrepancy, whereas for both MMD and KSD the size of neural network only depends on $d$ at most polynomially. Our proof relies on convergence estimates of empirical measures under aforementioned discrepancies and semi-discrete optimal transport.
研究动机与目标
- 研究神经网络作为生成器来表示超越函数逼近的概率分布的动机。
- 证明一个 ReLU DNN 可以通过梯度的推前将源分布映射为近似目标分布。
- 在三种 IPM 下提供实现给定近似精度所需的深度/宽度等复杂度界限。
- 将经验测度收敛性与半离散最优传输联系起来,以构建明确的基于神经网络的传输映射。
提出的方法
- 构造一个基于神经网络的势 u,其梯度将 p_z 推送为近似 π,满足 IPMs 的要求。
- 使用经验测度 P_n 来逼近 π,并对 W1、MMD 和 KSD 量化 d_FD(P_n, π) 的界限。
- 应用半离散最优传输来证明最优映射 T = ∇φ 将连续的 μ 推到离散的 ν,其中 φ 是仿射函数的最大值。
- 将 φ 表示为一个神经网络,通过一个结论(max_j{x·y_j + m_j} 可以由 DNN 表示)来实现。
- 给出 DNN 的显式深度 L = ⌈log2 n⌉ 和宽度 N = 2^L,并且目标度量对样本量 n 的依赖性。
实验结果
研究问题
- RQ1深度 ReLU 网络是否能够表示给定目标分布 π,使其成为通过神经网络输出的势的梯度对基分布的推前?
- RQ2IPM 的选择(Wasserstein、MMD、KSD)如何影响实现给定近似误差 ε 所需的网络规模?
- RQ3在每个 IPM 下,用于逼近 π 的网络深度/宽度(复杂度)的定量界限是什么?
- RQ4如何利用半离散最优传输来构建基于神经网络的传输映射?
- RQ5用于评估的三种 IPMs 下经验测度的收敛速率是多少?
主要发现
- 存在一个具有 d 个输入和一个输出的深度 ReLU 神经网络,使 p_z 在梯度映射下的推前在所选 IPM 中与 π 相距 ε。
- 对于 1-Wasserstein 距离,在 d=1 时所需的网络规模为 C/ε^2,在 d=2 时为 C log^2(ε)/ε^2,在 d≥3 时为 C^d/ε^d(在存在有限三阶矩的前提下)。
- 对于 MMD,在满足 Assumption K2 的核下,n ≤ C/ε^2。
- 对于 KSD,在满足 Assumption K3 的核且 π 满足 Assumptions 1 与 2 时,n ≤ C d/ε^2。
- 实现半离散最优解的传输映射是分段仿射函数梯度,恰好可由 DNN 表示。
- 基于神经网络的势 φ(x) = max_j{x·y_j + m_j} 可通过深度为 ⌈log n⌉、宽度为 2^⌈log n⌉ 的 DNN 实现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。