[论文解读] Avoiding pathologies in very deep networks
本文识别出非常深的神经网络中一种病态的表征崩溃现象:随着深度增加,表征容量会退化为单一自由度,为此提出一种输入连接架构,以在各层之间保持信息。通过深度高斯过程和核函数组合,本文表明标准架构存在表征退化问题,而所提架构在无限深度极限下仍能保持丰富且多样的特征表示。
Choosing appropriate architectures and regularization strategies for deep networks is crucial to good predictive performance. To shed light on this problem, we analyze the analogous problem of constructing useful priors on compositions of functions. Specifically, we study the deep Gaussian process, a type of infinitely-wide, deep neural network. We show that in standard architectures, the representational capacity of the network tends to capture fewer degrees of freedom as the number of layers increases, retaining only a single degree of freedom in the limit. We propose an alternate network architecture which does not suffer from this pathology. We also examine deep covariance functions, obtained by composing infinitely many feature transforms. Lastly, we characterize the class of models obtained by performing dropout on Gaussian processes.
研究动机与目标
- 通过将非常深的神经网络建模为函数上的先验,分析其表征容量。
- 识别标准深度架构中信息在各层间丢失的病态行为。
- 提出一种改进的网络架构,通过将输入连接到每一层来避免表征退化。
- 研究深度核函数和正则化高斯过程作为深度学习的替代归纳偏置。
- 通过先验分析,为权重初始化、正则化和架构设计提供理论洞见。
提出的方法
- 将深度神经网络建模为深度高斯过程(DGPs),其中每一层的变换均来自GP先验。
- 分析DGPs中函数复合的极限行为,表明标准架构在深度增加时会损失表征自由度。
- 提出一种输入连接架构,其中每一层同时接收原始输入和前一层的输出,以保持输入信息。
- 通过组合固定特征映射(如反正切或平方指数核)推导出深度核的闭式表达式。
- 表征高斯过程上的丢弃正则化,表明其与现有模型等价,并支持可计算的推断。
- 利用Mercer定理将核函数与神经网络中隐式特征表示联系起来。
实验结果
研究问题
- RQ1为何非常深的神经网络在深度增加时会损失表征容量?
- RQ2何种架构选择可防止深度网络中表征自由度的崩溃?
- RQ3深度高斯过程如何在无限宽度和无限深度极限下建模深度神经网络的归纳偏置?
- RQ4通过组合固定特征映射形成的深度核的函数形式及其表征容量为何?
- RQ5高斯过程上的丢弃与神经网络中的标准丢弃有何关系,其先验结构为何?
主要发现
- 由独立GP先验构成的标准深度架构在无限深度极限下退化为单一自由度,导致对大多数输入变化保持不变。
- 所提出的输入连接架构通过在每一层保留原始输入信号,有效防止了这种崩溃,维持了丰富的表征容量。
- 通过组合无限多个固定特征映射形成的深度核保留了复杂且分层的表征,并可对常见核函数(如平方指数核和反正切核)进行解析推导。
- 对高斯过程应用丢弃可得到一种可计算的先验,其对应于特定形式的权重共享与正则化,与神经网络中的标准丢弃类似。
- 分析表明,许多深度学习现象(如深度增加导致的性能下降)可归因于网络先验结构中编码的归纳偏置。
- 研究结果表明,架构选择、权重初始化和正则化策略应基于对函数先验的显式分析来指导。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。