QUICK REVIEW

[论文解读] How to Start Training: The Effect of Initialization and Architecture

Boris Hanin, David Rolnick|arXiv (Cornell University)|Mar 5, 2018

Adversarial Robustness in Machine Learning参考文献 32被引用 50

一句话总结

该论文对 ReLU 网络的两种早期训练失败模式进行了严格分析，并展示了适当的初始化和结构，特别是对于 ResNets，是如何防止这些失败，从而实现更深网络的训练。它提供了理论结果并在全连接、卷积和残差架构上进行了经验验证。

ABSTRACT

We identify and study two common failure modes for early training in deep ReLU nets. For each we give a rigorous proof of when it occurs and how to avoid it, for fully connected and residual architectures. The first failure mode, exploding/vanishing mean activation length, can be avoided by initializing weights from a symmetric distribution with variance 2/fan-in and, for ResNets, by correctly weighting the residual modules. We prove that the second failure mode, exponentially large variance of activation length, never occurs in residual nets once the first failure mode is avoided. In contrast, for fully connected nets, we prove that this failure mode can happen and is avoided by keeping constant the sum of the reciprocals of layer widths. We demonstrate empirically the effectiveness of our theoretical results in predicting when networks are able to start training. In particular, we note that many popular initializations fail our criteria, whereas correct initialization and architecture allows much deeper networks to be trained.

研究动机与目标

识别阻碍深度 ReLU 网络早期训练的失败模式（FM1 和 FM2）。
给出关于初始化和架构的严格条件，以在 FC、Conv 和 ResNet 架构中避免 FM1 和 FM2。
在经验上证明正确的初始化和架构如何预测训练的可行性与深度。
比较全连接、卷积和残差网络在行为上的差异，以解释 ResNet 的经验训练成功。

提出的方法

定义并分析两种失败模式：FM1（平均激活长度随深度呈指数级增长/缩短）和 FM2（跨层的激活长度方差呈指数级增长）。
证明通过使用方差为 2/fan-in 的对称分布初始化权重可以避免 FM1（并在 ResNet 中对残差模块进行缩放）。
显示在 ResNet 中一旦避免 FM1，FM2 将不会发生，而在全连接网络中 FM2 取决于架构（通过层宽的倒数和的和）。
推导并陈述形式定理（Theorem 1–Theorem 6），描述在 FC、Conv 和 ResNet 架构中 FM1 和 FM2 何时发生或被防止的条件。
通过将 fan-in 替换为卷积层的合适 fan-in，并在经验上展示类似行为，将结果扩展到卷积架构。

实验结果

研究问题

RQ1在深度 ReLU 网络中，在何种初始化和架构条件下会出现 FM1 和 FM2？
RQ2FC、Conv 和 ResNet 架构在倾向于 FM2 方面有何差异，这与深度网络的训练可行性有何关系？
RQ3适当缩放残差模块和权重方差是否能够实现显著更深的 ResNet 的训练？
RQ4在初始化时的经验激活长度是否能在不同架构中可靠预测早期训练性能？

主要发现

从对称分布中以方差 2/fan-in 初始化权重可以防止 FC 与 Conv 网络中的平均激活长度的发散/收敛（FM1）。
在 ResNet 中正确缩放残差模块可以防止 FM1，一旦避免了 FM1，FM2 在 ResNet 中不能发生（Corollary/Theorem 6）。
对于全连接和卷积网络，FM2 取决于架构，并可通过更宽的层或深度随宽度的线性增长来缓解；常数宽度网络需要宽度与深度大致线性增长才能避免 FM2。
对于残差网络，一旦避免 FM1，FM2 在很大程度上与架构无关；对残差模块进行适当加权可确保深度上的激活长度稳定。
经验上，使用正确方差和架构初始化的网络在更深的深度上训练成功，而流行的初始化往往会导致 FM1 失败。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。