[论文解读] Universal Approximation with Deep Narrow Networks
本文证明,深度为任意、宽度为 $n + m + 2$ 的深度窄层神经网络,可使用任意非仿射连续激活函数(在某点导数非零)在紧致域上普遍逼近任意从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的连续函数——涵盖所有实际使用的激活函数,包括多项式函数,从而在根本上区别于浅层宽层网络。
The classical Universal Approximation Theorem holds for neural networks of arbitrary width and bounded depth. Here we consider the natural `dual' scenario for networks of bounded width and arbitrary depth. Precisely, let $n$ be the number of inputs neurons, $m$ be the number of output neurons, and let $ρ$ be any nonaffine continuous function, with a continuous nonzero derivative at some point. Then we show that the class of neural networks of arbitrary depth, width $n + m + 2$, and activation function $ρ$, is dense in $C(K; \mathbb{R}^m)$ for $K \subseteq \mathbb{R}^n$ with $K$ compact. This covers every activation function possible to use in practice, and also includes polynomial activation functions, which is unlike the classical version of the theorem, and provides a qualitative difference between deep narrow networks and shallow wide networks. We then consider several extensions of this result. In particular we consider nowhere differentiable activation functions, density in noncompact domains with respect to the $L^p$-norm, and how the width may be reduced to just $n + m + 1$ for `most' activation functions.
研究动机与目标
- 建立具有有界宽度和任意深度的深度窄层神经网络的普遍逼近性质,解决经典普遍逼近定理的对偶问题。
- 将普遍逼近结果从基于 ReLU 的网络扩展至所有实际使用的激活函数,包括多项式函数和处处不可微函数。
- 确定实现普遍逼近所需的最小网络宽度,表明对‘大多数’激活函数,$n + m + 1$ 个神经元已足够。
- 在 $L^p$ 范数下将逼近结果推广至非紧致域,超越紧致集上的一致收敛。
- 提供一种不依赖于特定激活函数性质(如 ReLU 的代数结构)的方法,从而实现更广泛的理论适用性。
提出的方法
- 引入‘增强神经元’的概念,可表示线性映射与激活函数的复合,从而实现对函数逼近的精确控制。
- 使用寄存器模型,通过精心构造的神经元序列模拟恒等函数和常数函数,使网络能够模拟复杂函数类。
- 证明任意非仿射连续激活函数若在某点导数非零,则可在紧致集上一致逼近恒等函数。
- 利用 Stone–Weierstrass 定理和稠密性论证,表明深度窄层网络可表示的函数集合在 $C(K; \mathbb{R}^m)$ 中稠密。
- 通过结合紧致逼近与利用最大/最小操作精确表示截断函数的神经网络表示,将结果扩展至 $L^p$ 空间。
- 采用扰动论证,结合小规模线性变换与高频振荡,即使在处处不可微的激活函数下也能逼近恒等函数。
实验结果
研究问题
- RQ1具有有界宽度和任意深度的深度窄层网络,能否使用任意非仿射激活函数在紧致域上普遍逼近连续函数?
- RQ2多项式激活函数(在经典普遍逼近定理中被排除)是否仍满足普遍逼近性质?
- RQ3对‘大多数’激活函数,能否将实现普遍逼近所需的最小网络宽度从 $n + m + 2$ 降低至 $n + m + 1$?
- RQ4在非紧致域上,深度窄层网络是否可在 $L^p$ 空间中实现普遍逼近?
- RQ5该理论能否推广至处处不可微的激活函数(如 Weierstrass 型函数)?
主要发现
- 宽度为 $n + m + 2$、且激活函数为任意非仿射连续函数(在某点导数非零)的深度窄层网络,在紧致集 $K \subseteq \mathbb{R}^n$ 上,其可表示函数在 $C(K; \mathbb{R}^m)$ 中稠密。
- 该结果包含多项式激活函数,而这些函数在经典普遍逼近定理中被排除,从而在根本上揭示了深度窄层网络与浅层宽层网络之间的质性差异。
- 对于‘大多数’激活函数,实现普遍逼近的最小宽度为 $n + m + 1$,而非 $n + m + 2$,此结论通过命题 3.1 中的改进构造得以证明。
- 通过构建增强神经元,该方法可适用于处处不可微的激活函数,这些神经元可在紧致集上一致逼近恒等函数。
- 通过结合紧致逼近与利用最大/最小层精确表示截断函数的神经网络表示,普遍逼近在 $L^p(\mathbb{R}^n; \mathbb{R}^m)$($p \in [1, \infty)$)中成立。
- 该证明不依赖于 ReLU 或其他特定激活函数的代数性质,因此具有鲁棒性,可推广至深度学习中所有实际使用的激活函数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。