[论文解读] On the Expressive Power of Overlapping Architectures of Deep Learning
本文研究了深度学习中重叠卷积架构的表达能力,证明重叠感受野(卷积滤波器步长小于滤波器大小)可实现表达能力的指数级增长。通过使用卷积算术电路(ConvACs)作为理论替代模型,作者证明重叠连接性导致矩阵化秩呈指数增长,表明现代架构即使不依赖全连接层,也能实现指数级表达能力。
Expressive efficiency refers to the relation between two architectures A and B, whereby any function realized by B could be replicated by A, but there exists functions realized by A, which cannot be replicated by B unless its size grows significantly larger. For example, it is known that deep networks are exponentially efficient with respect to shallow networks, in the sense that a shallow network must grow exponentially large in order to approximate the functions represented by a deep network of polynomial size. In this work, we extend the study of expressive efficiency to the attribute of network connectivity and in particular to the effect of "overlaps" in the convolutional process, i.e., when the stride of the convolution is smaller than its filter size (receptive field). To theoretically analyze this aspect of network's design, we focus on a well-established surrogate for ConvNets called Convolutional Arithmetic Circuits (ConvACs), and then demonstrate empirically that our results hold for standard ConvNets as well. Specifically, our analysis shows that having overlapping local receptive fields, and more broadly denser connectivity, results in an exponential increase in the expressive capacity of neural networks. Moreover, while denser connectivity can increase the expressive capacity, we show that the most common types of modern architectures already exhibit exponential increase in expressivity, without relying on fully-connected layers.
研究动机与目标
- 理解架构连接性(尤其是重叠卷积)如何影响深度神经网络的表达能力。
- 研究重叠感受野(步长小于滤波器大小)是否相比非重叠设计能带来表达能力的指数级增长。
- 确定现代卷积架构是否已通过重叠连接性实现指数级表达能力,即使没有全连接层。
- 建立使用卷积算术电路(ConvACs)作为替代模型的卷积网络表达效率的理论基础。
- 证明重叠架构相比非重叠架构具有指数级更高的表达能力,即使参数规模相近。
提出的方法
- 使用卷积算术电路(ConvACs)作为标准ConvNets的理论替代模型,将非线性激活和池化操作替换为线性运算和乘积池化。
- 通过网络所诱导张量的矩阵化秩来分析表达能力,其中更高秩表示更强的表达能力。
- 证明对于重叠架构,网络所诱导张量的矩阵化秩随特征图位置数量呈指数增长。
- 在‘非共享’和‘共享’权重设置下,通过显式参数赋值,为特征图索引的特定偶数划分实现指数级矩阵化秩。
- 应用测度论论证,表明指数级矩阵化秩几乎处处成立(关于勒贝格测度),而不仅限于孤立示例。
- 通过实证验证将理论发现推广至真实世界ConvNets,表明ConvACs上的结果可迁移至标准架构。
实验结果
研究问题
- RQ1重叠卷积连接性(步长小于滤波器大小)是否相比非重叠架构带来表达能力的指数级增长?
- RQ2重叠架构是否能在不依赖全连接层的情况下实现指数级表达效率?
- RQ3现代卷积架构在多大程度上已通过重叠感受野利用了指数级表达能力?
- RQ4用作ConvNets替代模型的ConvACs的表达能力,是否足以代表真实ConvNet的行为?
- RQ5网络所诱导张量的矩阵化秩与重叠与非重叠架构之间的表达效率有何关系?
主要发现
- 由于更密集的连接模式,重叠卷积架构表现出指数级的表达能力,如矩阵化秩所衡量。
- 在重叠ConvACs中,所诱导张量的矩阵化秩以 $ M^{H^2/2} $ 的形式增长,其中 $ M $ 为通道数,$ H $ 为空间维度,表明存在指数级表达能力。
- 即使没有全连接层,这种表达能力的指数级增长依然存在,表明仅靠重叠连接性即可使深度网络高效表示复杂函数。
- 该结果在参数空间中几乎处处成立,意味着指数级表达能力并非局限于罕见或特殊构造的模型。
- 实证验证表明,ConvACs上的理论发现可成功迁移至标准ConvNets,表明重叠架构在本质上更具表达能力。
- 本研究解释了为何非重叠架构在实践中极为罕见:重叠设计仅以多项式增长的模型规模,即可实现指数级更高的表达能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。