QUICK REVIEW

[论文解读] Deep Information Propagation

Samuel S. Schoenholz, Justin Gilmer|arXiv (Cornell University)|Nov 4, 2016

Statistical Mechanics and Entropy被引用 23

一句话总结

本文提出了一种针对未训练、随机初始化的深度神经网络中信号与梯度传播的平均场理论，识别出限制信息流动的深度尺度。结果表明，只有当这些深度尺度——尤其是临界深度尺度 ξ_c——保持较大时，网络才能被训练，且训练成功率在临界点（即 ξ_c 发散的“混沌边缘”）附近达到峰值；而丢弃法会破坏这种临界性，从而限制可训练深度。

ABSTRACT

We study the behavior of untrained neural networks whose weights and biases are randomly distributed using mean field theory. We show the existence of depth scales that naturally limit the maximum depth of signal propagation through these random networks. Our main practical result is to show that random networks may be trained precisely when information can travel through them. Thus, the depth scales that we identify provide bounds on how deep a network may be trained for a specific choice of hyperparameters. As a corollary to this, we argue that in networks at the edge of chaos, one of these depth scales diverges. Thus arbitrarily deep networks may be trained only sufficiently close to criticality. We show that the presence of dropout destroys the order-to-chaos critical point and therefore strongly limits the maximum trainable depth for random networks. Finally, we develop a mean field theory for backpropagation and we show that the ordered and chaotic phases correspond to regions of vanishing and exploding gradient respectively.

研究动机与目标

理解未训练、随机初始化的深度神经网络中信号传播的理论极限。
识别控制信息在随机网络架构中传播距离的深度尺度。
通过平均场理论，建立信号传播、梯度流动与网络可训练性之间的正式联系。
解释为何仅在有序到混沌的临界点附近，深度网络才可被训练。
分析丢弃法对临界性及最大可训练深度的影响

提出的方法

开发一种平均场形式化方法，用于分析具有独立同分布高斯权重和偏置的全连接、未训练前馈网络中的信号传播。
引入一个深度尺度 ξ_c，用于表征输入信号在各层间相关性的衰减，其来源于信号协方差演化方程的固定点解。
将平均场方法扩展至反向传播，推导出梯度流动的对偶形式，并识别出梯度消失与梯度爆炸的区域。
利用深度尺度 ξ_c 预测随机网络的最大可训练深度，并通过在 MNIST 和 CIFAR10 上的实验进行验证。
通过将丢弃法的影响建模为权重方差的重标度，分析其对临界性及 ξ_c 的影响，表明其会破坏临界点并限制 ξ_c。
通过训练不同深度和超参数的深层全连接网络，对理论进行实证检验，并将结果与理论预测进行比较

实验结果

研究问题

RQ1未训练、随机初始化的深度神经网络中，哪些深度尺度控制着信号传播？
RQ2临界深度尺度 ξ_c 与深度网络可训练性之间有何关系？
RQ3当网络在有序到混沌转变点附近初始化时，信号与梯度传播会发生什么变化？
RQ4丢弃法如何影响临界深度尺度 ξ_c 的存在性与取值？
RQ5ξ_c 是否能够预测不同数据集和架构下的最大可训练深度？

主要发现

在有序到混沌转变点，深度尺度 ξ_c 发散，表明在此参数区域中，信号相关性可无限远距离地在网络中传播。
只有当网络深度显著小于 ξ_c 时，网络才可被训练，这确立了 ξ_c 作为可训练深度的普遍上界。
前向传播中识别出的有序相与混沌相，分别对应于反向传播中的梯度消失与梯度爆炸。
即使少量的丢弃法也会破坏有序到混沌的临界点，导致 ξ_c 保持有限，从而将最大可训练深度限制在约 L=100。
基于 ξ_c 的可训练深度理论预测与在 MNIST 和 CIFAR10 上的实证训练结果高度一致，且适用于不同超参数。
该框架与数据集和优化器无关，表明 ξ_c 是一个与网络架构相关的普遍可训练深度上界

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。