[论文解读] On the Expressive Power of Deep Neural Networks
本文引入轨迹长度作为深度神经网络表达能力的统一度量,证明了由于对低层权重敏感性增加,表达能力随深度呈指数增长。研究表明,训练低层可显著提升性能,并提出轨迹正则化作为批量归一化更高效的替代方法,性能相当。
We propose a new approach to the problem of neural network expressivity, which seeks to characterize how structural properties of a neural network family affect the functions it is able to compute. Our approach is based on an interrelated set of measures of expressivity, unified by the novel notion of trajectory length, which measures how the output of a network changes as the input sweeps along a one-dimensional path. Our findings can be summarized as follows: (1) The complexity of the computed function grows exponentially with depth. (2) All weights are not equal: trained networks are more sensitive to their lower (initial) layer weights. (3) Regularizing on trajectory length (trajectory regularization) is a simpler alternative to batch normalization, with the same performance.
研究动机与目标
- 理解架构深度和宽度如何影响神经网络可计算的函数,特别是在实际的非极端设置下。
- 解决现有手写权重构造所得下界与理论表达能力上界不匹配的问题。
- 研究网络表达能力与实际性能之间的关系,特别是在训练后的模型中。
- 构建一种独立于具体权重值、适用于标准架构的表达能力度量框架。
- 探索正则化在塑造网络表达能力和泛化性能中的作用。
提出的方法
- 将轨迹长度定义为网络输出沿一维输入路径变化程度的度量,捕捉非线性变换的复杂性。
- 使用激活模式——即活跃神经元不同组合的数量——作为网络表达能力的代理指标,并推导出理论上的上界。
- 分析沿轨迹扫掠输入与扫掠权重之间的统计对偶性,表明两者在表达能力度量上具有等价性。
- 提出轨迹正则化,一种通过控制轨迹长度来稳定表示学习的方法,灵感来自批量归一化。
- 在MNIST和CIFAR-10上进行实验,评估对权重扰动的鲁棒性以及分层训练下的性能表现。
- 应用随机矩阵理论和统计对偶性,证明轨迹长度和可实现的二分模式数均随深度呈指数增长,且与宽度无关。
实验结果
研究问题
- RQ1深度神经网络的表达能力如何随深度增长?其背后的作用机制是什么?
- RQ2为何在训练后的网络中,低层权重对性能的影响远大于高层权重?
- RQ3轨迹长度能否作为不同网络架构和初始化方案下表达能力的统一度量?
- RQ4正则化,特别是批量归一化,如何影响轨迹长度和表示稳定性?
- RQ5基于轨迹长度的新正则化方案能否在计算成本更低的前提下达到与批量归一化相当的性能?
主要发现
- 轨迹长度随网络深度呈指数增长,表明深层网络能够表示远比浅层网络更复杂的函数。
- 训练后的网络对低层权重的噪声更为敏感,证实了初始层对输出具有更大影响。
- 当仅更新单一层时,若低层训练充分,性能可显著提升,表明其具有不成比例的重要影响。
- 轨迹正则化在性能上可与批量归一化相媲美,但计算开销更低,表明其是更高效的替代方案。
- 可实现的二分模式数(分类模式)仅取决于被扫掠层之上的剩余层数,而非总深度,表明深度相关的表达能力具有模块化特性。
- 训练过程会增加轨迹长度,尤其在较小权重初始化下更为明显,表明优化过程通过增强表达能力来提升准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。