QUICK REVIEW

[论文解读] The Power of Depth for Feedforward Neural Networks

Ronen Eldan, Ohad Shamir|arXiv (Cornell University)|Dec 12, 2015

Machine Learning and Algorithms参考文献 18被引用 215

一句话总结

本文证明，一个在 ℝᵈ 上的简单径向函数，可通过宽度较小的3层前馈神经网络计算，但除非宽度随输入维度 d 呈指数增长，否则无法被任何2层网络以优于常数精度近似。该结果对所有标准激活函数（ReLU、Sigmoid、阈值函数）成立，正式确立了全连接前馈网络中深度相比宽度在表达能力上具有指数级优势。

ABSTRACT

We show that there is a simple (approximately radial) function on $ eals^d$, expressible by a small 3-layer feedforward neural networks, which cannot be approximated by any 2-layer network, to more than a certain constant accuracy, unless its width is exponential in the dimension. The result holds for virtually all known activation functions, including rectified linear units, sigmoids and thresholds, and formally demonstrates that depth -- even if increased by 1 -- can be exponentially more valuable than width for standard feedforward neural networks. Moreover, compared to related results in the context of Boolean functions, our result requires fewer assumptions, and the proof techniques and construction are very different.

研究动机与目标

研究深度是否在前馈神经网络的表达能力上相较于宽度具有根本性优势。
正式证明3层网络可计算出需要指数级宽度的2层网络才能近似的函数。
在宽度和深度受限的条件下，分析浅层网络与深层网络的表达能力。
证明即使仅多出一层，深度也能为标准激活函数带来相对于宽度的指数级优势。
提供一个适用于广泛激活函数类的一般性结果，包括ReLU、Sigmoid和阈值函数。

提出的方法

构建一个在 ℝᵈ 上的径向函数 f(‖x‖)，其为1-Lipschitz且紧支集，通过带符号、缩放和平移的ReLU类神经元之和实现。
采用两阶段近似：首先通过宽度有界的2层网络近似一个单变量函数，然后将该近似提升至 d 维径向函数。
使用基于核的构造方法，生成函数 g(x) = ∑ᵢ εᵢ gᵢ(‖x‖)，其中每个 gᵢ 为3层网络，确保该和无法被2层网络近似。
应用2层网络的通用近似性质（假设1），证明任何近似该构造函数的2层网络，其宽度必须随 d 呈指数增长。
在 L₂(μ) 空间中使用三角不等式，结合两个阶段的近似误差：一是带符号函数之和的近似误差，二是径向函数的近似误差。
推导出任意2层网络与所构造3层函数之间在 L₂(μ) 范数下的下界距离，证明除非宽度呈指数增长，否则无法以常数误差近似该函数。

实验结果

研究问题

RQ13层前馈神经网络能否计算出即使宽度任意大也无法被任何2层网络近似的函数？
RQ2近似一个可用小宽度3层网络表达的函数，所需的2层网络最小宽度是多少？
RQ3深度是否在前馈网络的表达能力上相对于宽度具有指数级优势？
RQ4这种深度优势是否对所有标准激活函数（包括ReLU、Sigmoid和阈值函数）均成立？
RQ5能否构造一个在 ℝᵈ 上的径向函数，使其3层网络表示在不呈指数宽度的前提下，无法被2层网络近似？

主要发现

存在一个在 ℝᵈ 上的径向函数 f(‖x‖)，其可由宽度为常数（与 d 无关）的3层前馈网络计算，但除非宽度随 d 呈指数增长，否则无法被任何2层网络以常数误差近似。
近似误差的下界对所有满足假设1的标准激活函数均成立，包括ReLU、Sigmoid和阈值函数。
任何近似该构造3层函数的2层网络，其所需宽度随 exp(Ω(d)) 增长，表明2层与3层网络在宽度上存在指数级分离。
该证明构造了一个函数 g(x)，其可由宽度至多为 C′cσ d¹⁹ᐟ⁴ 的3层网络表达，其中 cσ 为依赖于激活函数的常数，C′ 为通用常数。
任意2层网络与所构造3层函数之间的 L₂(μ) 距离下界为 δ₁/2 > 0，证明除非宽度呈指数增长，否则无法在该误差范围内近似该函数。
该结果在激活函数上仅需最小假设，即其满足有界域上单变量Lipschitz函数的通用近似性质。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。