[论文解读] On the number of inference regions of deep feed forward networks with piece-wise linear activations
本文通过将深度前馈网络建模为分段线性函数,分析了带有ReLU激活函数的深度网络的表征复杂度。利用计算几何方法,研究发现:具有k层、每层n个神经元的深度网络可生成的线性区域数量为Ω((n/n₀)^{k−1}n^{n₀}),而具有kn个隐藏单元的浅层网络的线性区域数量仅增长为O(k^{n₀}n^{n₀}),表明当网络深度增加或宽度超过输入维度两倍时,深度网络在表征能力上具有明显优势。
Abstract: This paper explores the complexity of deep feed forward networks with linear pre-synaptic couplings and rectified linear activations. This is a contribution to the growing body of work contrasting the representational power of deep and shallow network architectures. In particular, we offer a framework for comparing deep and shallow models that belong to the family of piecewise linear functions based on computational geometry. We look at a deep rectifier multi-layer perceptron (MLP) with linear outputs units and compare it with a single layer version of the model. In the asymptotic regime, when the number of inputs stays constant, if the shallow model has $kn$ hidden units and $n_0$ inputs, then the number of linear regions is $O(k^{n_0}n^{n_0})$. For a $k$ layer model with $n$ hidden units on each layer it is $\Omega(\left( {n}/{n_0} ight)^{k-1}n^{n_0})$. $\left({n}/{n_0} ight)^{k-1}$ grows faster then $k^{n_0}$ when either $n$ goes to infinity or $k$ goes to infinity and $n > 2n_0$. We consider this as a first step towards understanding the complexity of these models and specifically towards providing suitable mathematical tools for future analysis.
研究动机与目标
- 理解具有分段线性激活函数的深度前馈网络的表征复杂度。
- 通过几何分析比较深度与浅层架构中线性区域的数量。
- 建立分析深度网络表达能力的数学工具。
- 研究深度与宽度如何共同影响ReLU网络中线性区域的数量。
提出的方法
- 使用计算几何方法将深度ReLU网络建模为分段线性函数。
- 分析具有线性输出单元的深度多层感知机(MLP)中线性区域的数量。
- 比较具有相同参数量的k层深度网络与单层浅层网络之间线性区域数量的差异。
- 在输入维度n₀固定、深度k或宽度n变化的条件下,使用渐近分析方法。
- 利用组合几何技术推导线性区域数量的上下界。
- 将该框架应用于不同缩放模式下区域数量增长速率的比较。
实验结果
研究问题
- RQ1与浅层网络相比,深度ReLU网络中线性区域的数量如何随深度和宽度变化?
- RQ2具有k层和每层n个神经元的深度网络中,线性区域数量的渐近增长速率是多少?
- RQ3增加深度或宽度是否会导致线性区域数量相对于浅层模型出现超多项式增长?
- RQ4在何种条件下,深度网络的区域数量会超过具有相同参数量的浅层网络?
主要发现
- 具有kn个隐藏单元和n₀个输入的浅层网络中,线性区域数量被限制在O(k^{n₀}n^{n₀})以内。
- 对于每层有n个神经元的k层深度网络,其线性区域数量至少为Ω((n/n₀)^{k−1}n^{n₀})。
- 当n > 2n₀且n或k增加时,(n/n₀)^{k−1}的增长速度超过k^{n₀},表明存在深度优势。
- 在相同参数预算下,深度网络的区域数量相对于浅层模型呈超多项式增长。
- 结果表明,深度在提升线性区域复杂度方面提供了显著的表征优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。