[论文解读] On the ability of neural nets to express distributions
本文基于函数的傅里叶特性,为深度神经网络以 $ n $ 个隐层近似某一函数建立了充分条件。研究表明,$ n $ 个 Barron 函数(傅里叶能量有界的函数)的复合函数可由 $ n+1 $ 层网络近似,从而解释了生成模型在 Wasserstein 距离下表现出的强大表达能力。
Deep neural nets have caused a revolution in many classification tasks. A related ongoing revolution -- also theoretically not understood -- concerns their ability to serve as generative models for complicated types of data such as images and texts. These models are trained using ideas like variational autoencoders and Generative Adversarial Networks. We take a first cut at explaining the expressivity of multilayer nets by giving a sufficient criterion for a function to be approximable by a neural network with $n$ hidden layers. A key ingredient is Barron's Theorem \cite{Barron1993}, which gives a Fourier criterion for approximability of a function by a neural network with 1 hidden layer. We show that a composition of $n$ functions which satisfy certain Fourier conditions ("Barron functions") can be approximated by a $n+1$-layer neural network. For probability distributions, this translates into a criterion for a probability distribution to be approximable in Wasserstein distance -- a natural metric on probability distributions -- by a neural network applied to a fixed base distribution (e.g., multivariate gaussian). Building up recent lower bound work, we also give an example function that shows that composition of Barron functions is more expressive than Barron functions alone.
研究动机与目标
- 理解深度神经网络为何在生成图像和文本等复杂数据分布方面表现高效。
- 为深度网络在表达能力上超越浅层架构提供理论基础。
- 基于傅里叶分析,建立函数可由具有 $ n $ 个隐层的深度神经网络近似的充分条件。
- 将 Barron 函数的复合与深度网络在生成概率分布方面的表达能力联系起来。
- 展示 Barron 函数与其复合函数之间在表达能力上的严格分层,表明更深的网络可建模更复杂的分布。
提出的方法
- 以 Barron 的定理 [Bar93] 为基础,该定理提供了使用单隐层网络近似函数的基于傅里叶的判据。
- 通过证明满足 Barron 傅里叶条件的 $ n $ 个函数的复合可由 $ n+1 $ 层网络近似,将 Barron 的结果推广至深度网络。
- 采用 Wasserstein 距离 $ W_2 $ 作为度量,衡量神经网络生成的概率分布的近似质量。
- 引入一种下界技术,通过精心选择具有紧致傅里叶支撑的脉冲函数 $ g $,证明表达能力的指数级分离。
- 应用对偶论证,通过 $ ( abla f)g $ 的傅里叶变换的 $ L^1 $-范数来界定函数 $ f $ 的 Barron 常数,避免对任意扩展的依赖。
- 将高维函数 $ f(x) = f_1( orm{x}) $ 分解为范数平方函数与一维函数,证明在适当条件下两者均为 Barron 函数。
实验结果
研究问题
- RQ1深度神经网络是否能比浅层网络更高效地近似复杂概率分布?
- RQ2一个函数可由具有 $ n $ 个隐层的深度神经网络近似的充分条件是什么?
- RQ3Barron 函数的复合如何与深度网络的表达能力相关联?
- RQ4在 $ n $ 个 Barron 函数与 $ n+1 $ 个 Barron 函数的复合之间,是否存在严格的表达能力层级?
- RQ5能否基于傅里叶准则,正式分离深度网络与浅层网络的表征能力?
主要发现
- 一个由 $ n $ 个 Barron 函数复合而成的函数,可在 $ W_2 $ Wasserstein 距离下被 $ n+1 $ 层神经网络近似。
- 通过涉及紧致支撑函数 $ g $ 的对偶公式,可对函数 $ f $ 的 Barron 常数建立下界,从而实现指数级下界。
- 当 $ n \neq 3 \bmod 4 $ 时,具有特定参数的函数 $ f(x) = f_1(\norm{x}) $ 的 Barron 常数可随 $ n $ 指数增长,表明其复杂度极高。
- 函数 $ f(x) = f_1(\norm{x}) $ 被证明是两个 Barron 函数的复合:$ x \to \norm{x}^2 $ 和 $ y \to f_1(\norm{y}) $,两者均具有多项式有界的 Barron 常数。
- 已证明存在表达能力分离:存在 Barron 常数呈指数级增长的函数(因此无法被浅层网络近似),但它们仅由两个 Barron 函数复合而成。
- 该结果表明,由于傅里叶有界函数的分层复合,深度网络能够建模浅层网络即使参数呈指数增长也无法实现的分布。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。