[论文解读] On the Expressive Power of Deep Learning: A Tensor Analysis
本文提出一种卷积算术电路架构,通过将局部性、权重重用和池化——卷积神经网络实用性的关键组件——建模为分层张量分解,实现其整合。证明了除一个测度为零的极小集合外,以多项式规模深度网络可表示的函数,需指数规模的浅层网络才能近似,从而确立了深度在表达能力上的根本理论优势。
It has long been conjectured that hypotheses spaces suitable for data that is compositional in nature, such as text or images, may be more efficiently represented with deep hierarchical networks than with shallow ones. Despite the vast empirical evidence supporting this belief, theoretical justifications to date are limited. In particular, they do not account for the locality, sharing and pooling constructs of convolutional networks, the most successful deep learning architecture to date. In this work we derive a deep network architecture based on arithmetic circuits that inherently employs locality, sharing and pooling. An equivalence between the networks and hierarchical tensor factorizations is established. We show that a shallow network corresponds to CP (rank-1) decomposition, whereas a deep network corresponds to Hierarchical Tucker decomposition. Using tools from measure theory and matrix algebra, we prove that besides a negligible set, all functions that can be implemented by a deep network of polynomial size, require exponential size in order to be realized (or even approximated) by a shallow network. Since log-space computation transforms our networks into SimNets, the result applies directly to a deep learning architecture demonstrating promising empirical performance. The construction and theory developed in this paper shed new light on various practices and ideas employed by the deep learning community.
研究动机与目标
- 从理论上证明深度网络在表示组合性数据(如图像和文本)方面优于浅层网络。
- 构建一个理论框架,解释卷积网络的关键架构要素——局部性、权重重用和池化——此前在深度效率证明中缺失的机制。
- 建立深度神经网络与分层张量分解(特别是分层Tucker分解和CP分解)之间的正式联系。
- 证明除测度为零的集合外,以多项式规模深度网络可实现的函数,需指数规模浅层网络才能近似。
- 通过对数空间计算与数值稳定性,证明理论发现可适用于实际深度学习架构(如SimNets)。
提出的方法
- 作者设计一种基于求和节点实现卷积(具有局部性与权重重用)和基于乘积节点实现池化操作的卷积算术电路架构。
- 建立深度网络与分层Tucker张量分解之间的等价性,以及浅层网络与CP(秩-1)分解之间的等价性。
- 利用测度论与矩阵代数工具,分析这些分解的表达能力,以比较深度与浅层网络的表征能力。
- 将网络转换至对数空间以确保数值稳定性,通过SimNets实现,利用MEX算子稳定计算对数求和指数(log-sum-exp)与求和池化操作。
- 理论分析利用了非负张量分解保持通用性且支持高效、数值稳定训练的特性。
- 通过证明该构造与SimNets(一种近期提出的、在图像基准上表现优异的架构)等价,验证了其有效性。
实验结果
研究问题
- RQ1能否构建一个理论框架,解释深度学习的表达能力,同时整合局部性、权重重用和池化等关键架构要素?
- RQ2深度神经网络与分层张量分解之间是否存在正式的数学等价性?
- RQ3深度网络在表示组合函数方面,相对于浅层网络的优越程度如何?
- RQ4在近似所需规模方面,深度网络与浅层网络的表达能力有何差异?
- RQ5理论上的深度效率结果能否推广至实际深度学习架构(如SimNets)?
主要发现
- 除测度为零的集合外,所有以多项式规模深度网络可实现的函数,均需指数规模浅层网络才能近似,确立了强有力的深度效率结果。
- 浅层网络对应CP(秩-1)张量分解,而深度网络对应分层Tucker分解,为深度提供了正式的张量基表征。
- 所提出的架构基于具有求和节点与乘积节点的算术电路,自然整合了局部性、权重重用与池化,与实际卷积网络保持一致。
- 理论结果可直接推广至实际模型:该构造与SimNets完全对应,后者在资源受限条件下的图像识别基准上已展现出最先进性能。
- 通过在对数空间计算实现数值稳定性,MEX算子支持对数求和指数与求和池化操作的稳定实现。
- 非负张量分解虽可能不如无约束分解高效,但保持通用性,且支持性能损失极小的实际部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。