Skip to main content
QUICK REVIEW

[论文解读] A Universal Approximation Theorem of Deep Neural Networks for Expressing Distributions.

Yulong Lu, Jianfeng Lu|arXiv (Cornell University)|Apr 19, 2020
Adversarial Robustness in Machine Learning参考文献 44被引用 18
一句话总结

本文在概率分布生成的背景下,建立了深度神经网络的通用逼近定理:在温和条件下,可构造一个ReLU网络 $g$,使得通过 $\nabla g$ 推前的源测度 $p_z$ 可以以任意精度逼近任意目标分布 $\pi$。逼近误差在 1- Wasserstein、MMD 和 KSD 不确定性度量下有界,且对于 MMD 和 KSD,网络规模随维度 $d$ 多项式增长;而对于 1- Wasserstein,则呈指数增长。

ABSTRACT

This paper studies the universal approximation property of deep neural networks for representing probability distributions. Given a target distribution $\pi$ and a source distribution $p_z$ both defined on $\mathbb{R}^d$, we prove under some assumptions that there exists a deep neural network $g:\mathbb{R}^d ightarrow \mathbb{R}$ with ReLU activation such that the push-forward measure $( abla g)_\# p_z$ of $p_z$ under the map $ abla g$ is arbitrarily close to the target measure $\pi$. The closeness are measured by three classes of integral probability metrics between probability distributions: $1$-Wasserstein distance, maximum mean distance (MMD) and kernelized Stein discrepancy (KSD). We prove upper bounds for the size (width and depth) of the deep neural network in terms of the dimension $d$ and the approximation error $\varepsilon$ with respect to the three discrepancies. In particular, the size of neural network can grow exponentially in $d$ when $1$-Wasserstein distance is used as the discrepancy, whereas for both MMD and KSD the size of neural network only depends on $d$ at most polynomially. Our proof relies on convergence estimates of empirical measures under aforementioned discrepancies and semi-discrete optimal transport.

研究动机与目标

  • 建立深度神经网络在表示任意概率分布方面的通用逼近性质。
  • 分析在不同积分概率度量下,用于逼近目标分布 $\pi$ 的 ReLU 网络所需规模(宽度与深度)。
  • 比较不同不确定度度量下网络规模对维度 $d$ 和逼近误差 $\varepsilon$ 的依赖关系。
  • 表明对于 MMD 和 KSD,网络规模在 $d$ 上至多多项式增长,而对于 1- Wasserstein 则呈指数增长。

提出的方法

  • 构建一个从 $\mathbb{R}^d$ 到 $\mathbb{R}$ 的深度 ReLU 神经网络 $g$,使得通过 $\nabla g$ 推前的 $p_z$ 可逼近目标分布 $\pi$。
  • 利用 1- Wasserstein、MMD 和 KSD 下经验测度收敛估计来界定逼近误差。
  • 借助半离散最优传输理论,构造将 $p_z$ 推向 $\pi$ 的梯度映射 $\nabla g$。
  • 针对每种不确定度度量,推导出网络宽度与深度在维度 $d$ 和期望逼近误差 $\varepsilon$ 下的上界。
  • 应用经验测度收敛的理论结果,控制 $ (\nabla g)_\# p_z $ 与 $\pi$ 之间的不确定度。
  • 证明网络规模在 MMD 和 KSD 下关于 $d$ 多项式增长,而在 1- Wasserstein 距离下则呈指数增长。

实验结果

研究问题

  • RQ1能否通过 $\nabla g$ 对源分布 $p_z$ 的推前操作,利用深度 ReLU 神经网络普遍逼近任意目标概率分布 $\pi$?
  • RQ2当使用 1- Wasserstein 距离时,网络所需规模如何随维度 $d$ 和逼近误差 $\varepsilon$ 变化?
  • RQ3当使用 MMD 或 KSD 作为不确定度度量时,网络规模在 $d$ 上是多项式还是指数增长?
  • RQ4能否针对积分概率度量,推导出逼近误差的理论保证?

主要发现

  • 对于 1- Wasserstein 距离,给定逼近误差 $\varepsilon$ 时,所需深度神经网络规模在维度 $d$ 上呈指数增长。
  • 对于 MMD 和 KSD,网络规模在 $d$ 上至多多项式增长,表明其规模增长远优于 1- Wasserstein 情况。
  • 本文证明了存在一个 ReLU 网络 $g$,使得 $ (\nabla g)_\# p_z $ 在三种不确定度度量下均能以 $\varepsilon$ 的误差逼近 $\pi$。
  • 该构造依赖于经验测度收敛估计和半离散最优传输理论,用于界定逼近误差。
  • 理论框架为每种不确定度度量提供了关于 $d$ 和 $\varepsilon$ 的网络宽度与深度的显式上界。
  • 结果在分布生成背景下建立了深度网络的通用逼近性质,且其规模行为因不确定度度量的选择而异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。