Skip to main content
QUICK REVIEW

[论文解读] On the Number of Linear Regions of Convolutional Neural Networks

Huan Xiong, Lei Huang|arXiv (Cornell University)|Jun 1, 2020
Adversarial Robustness in Machine Learning参考文献 26被引用 25
一句话总结

本文首次对ReLU卷积神经网络(CNN)中线性区域的数量进行了理论分析,推导出单层CNN的精确公式,并为更深的网络架构提供了边界。结果表明,与浅层网络和全连接网络相比,更深的CNN在单位参数下具有显著更高的表达能力,解释了其在实践中表现优越的原因。

ABSTRACT

One fundamental problem in deep learning is understanding the outstanding performance of deep Neural Networks (NNs) in practice. One explanation for the superiority of NNs is that they can realize a large class of complicated functions, i.e., they have powerful expressivity. The expressivity of a ReLU NN can be quantified by the maximal number of linear regions it can separate its input space into. In this paper, we provide several mathematical results needed for studying the linear regions of CNNs, and use them to derive the maximal and average numbers of linear regions for one-layer ReLU CNNs. Furthermore, we obtain upper and lower bounds for the number of linear regions of multi-layer ReLU CNNs. Our results suggest that deeper CNNs have more powerful expressivity than their shallow counterparts, while CNNs have more expressivity than fully-connected NNs per parameter.

研究动机与目标

  • 通过分析输入空间中线性区域的数量,理解深度卷积神经网络(CNN)的表达能力。
  • 将现有关于全连接ReLU网络中线性区域的研究扩展到卷积设置。
  • 量化深度和网络结构对CNN相对于全连接网络表达能力的影响。
  • 为单层和多层ReLU CNN中的线性区域数量建立精确和有界的表达式。
  • 通过在参数配置上进行大规模采样实验,验证理论结果。

提出的方法

  • 利用组合几何和超平面排列理论,推导出单层ReLU CNN中最大和平均线性区域数量的精确公式。
  • 应用Zaslavsky定理来计算处于一般位置的超平面所形成的区域数量,并将其适配到CNN的权重和偏置结构。
  • 采用基于采样的方法,通过在2×10⁹个输入点上评估神经元激活的符号模式,来估计多层CNN中的线性区域数量。
  • 通过分析滤波器交互作用、卷积核大小和特征图尺寸,建立多层ReLU CNN的上下界。
  • 通过将采样得到的区域数量与合成CNN上的理论极限进行比较,验证理论边界。
  • 将分析扩展至随机权重初始化下区域数量的统计期望,表明其与单层情况下的最大值相等。

实验结果

研究问题

  • RQ1单层ReLU CNN能够将其输入空间划分为的线性区域的最大精确数量是多少?
  • RQ2在随机权重初始化下,单层ReLU CNN的平均线性区域数量与最大值相比如何?
  • RQ3深层ReLU CNN中线性区域数量的理论上下界是什么?
  • RQ4在按参数数量归一化后,ReLU CNN的表达能力与全连接ReLU网络相比如何?
  • RQ5在训练过程中或受到微小扰动时,网络参数的变化如何影响线性区域的数量?

主要发现

  • 对于单层ReLU CNN,最大线性区域数量由超平面排列理论推导出的精确闭式公式给出。
  • 在随机权重初始化下,线性区域的期望数量等于单层CNN的最大区域数量,该结果与单层全连接网络一致。
  • 多层ReLU CNN在相同参数数量下,其线性区域数量比浅层网络呈指数级增长,表明其具有更高的表达能力。
  • 深层CNN的理论上下界表明,深度显著增加了线性区域的数量,证实了深度在表达能力上的优势。
  • 采样实验验证了理论边界,表明通过采样得到的区域数量与一维和二维CNN的理论预测高度吻合。
  • ReLU CNN在单位参数下的表达能力高于全连接ReLU网络,表明其在函数表示上具有架构效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。