[论文解读] On the Number of Linear Regions of Deep Neural Networks
本文通过量化具有分段线性激活函数(如 ReLU 和 maxout)的深度前馈神经网络在其函数可将输入空间划分为的线性区域数量,分析了其表征能力。结果表明,与浅层网络相比,深度网络在相同参数数量下可实现指数级更多的线性区域,揭示了通过分层特征重用与组合实现复杂结构函数建模时深度的根本优势。
We study the complexity of functions computable by deep feedforward neural networks with piecewise linear activations in terms of the symmetries and the number of linear regions that they have. Deep networks are able to sequentially map portions of each layer's input-space to the same output. In this way, deep models compute functions that react equally to complicated patterns of different inputs. The compositional structure of these functions enables them to re-use pieces of computation exponentially often in terms of the network's depth. This paper investigates the complexity of such compositional maps and contributes new theoretical results regarding the advantage of depth for neural networks with piecewise linear activation functions. In particular, our analysis is not specific to a single family of models, and as an example, we employ it for rectifier and maxout networks. We improve complexity bounds from pre-existing work and investigate the behavior of units in higher layers.
研究动机与目标
- 理解具有分段线性激活函数的深度神经网络的表征复杂度。
- 量化深度如何增加网络函数在输入空间中划分的线性区域数量。
- 为整流器和 maxout 网络建立线性区域数量的理论边界。
- 证明深度网络可通过组合式堆叠实现低层计算的指数级重用。
- 提供一个适用于各种分段线性网络(包括卷积架构)的一般性框架。
提出的方法
- 分析由分段线性激活函数在输入空间中诱导的划分,重点关注网络输出为仿射函数的线性区域。
- 利用几何与组合论证,基于层宽、深度和激活类型来界定线性区域的数量。
- 应用超平面与 Voronoi 图排列的相关结果,对区域数量进行上下界估计。
- 通过构建显式网络结构(如平行超平面、maxout 单元)实现线性区域数量的紧致下界。
- 通过建模每一层如何将输入邻域映射到共享输出,将分析扩展至深度网络,从而实现计算的指数级重用。
- 通过将秩为 $k$ 的 maxout 单元与输入空间中的 $k$ 个锥相关联(每个锥对应一个线性区域),推导出 maxout 网络的理论边界。
实验结果
研究问题
- RQ1对于具有分段线性激活函数的深度神经网络,其线性区域数量如何随深度与宽度增长?
- RQ2具有 ReLU 或 maxout 单元的深度网络最多可计算多少个线性区域?
- RQ3深度网络的线性区域数量与具有相同参数数量的浅层网络相比如何?
- RQ4深度网络中的分层组合以何种方式导致表征复杂度的指数级增长?
- RQ5该理论框架是否可适用于具有最大池化和 ReLU 单元的卷积网络?
主要发现
- 具有 $L$ 层、宽度为 $n_0$ 的深度整流器网络,可计算出至少 $2^{n_0 L}$ 个线性区域,其数量随深度呈指数增长。
- 具有 $L$ 层、宽度 $n_0$ 和秩 $k$ 的 maxout 网络,可计算出至少 $k^{L-1} k^{n_0} = k^{n_0 L}$ 个线性区域,显示出深度与秩的指数级增长。
- 深度网络中线性区域的数量可比具有相同参数数量的浅层网络快得多地呈指数级增长。
- 单层 maxout 网络($n$ 个输入、$m$ 个输出、秩 $k$)的下界为 $k^{ ext{min}egin{Bmatrix}n,mackslashend{Bmatrix}}$,为复杂度提供了一个紧致基线。
- 该框架适用于卷积网络:最大池化与 ReLU 单元递归地识别感受野,导致输入空间中出现指数级多的线性区域。
- 网络的参数空间被划分为若干区域,在每个区域内,所得函数具有特定数量的线性区域,表明参数与函数复杂度之间存在结构化关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。