QUICK REVIEW

[论文解读] Fixup Initialization: Residual Learning Without Normalization

Hongyi Zhang, Yann Dauphin|arXiv (Cornell University)|Jan 27, 2019

Advanced Neural Network Applications参考文献 29被引用 112

一句话总结

Fixup 初始化使在不使用归一化的情况下训练非常深的残差网络成为可能，通过仔细缩放残差分支、偏置和乘数，使更新得到正确的缩放；它在多个任务上匹配归一化性能，并在适当正则化下可以实现最先进的结果。

ABSTRACT

Normalization layers are a staple in state-of-the-art deep neural network architectures. They are widely believed to stabilize training, enable higher learning rate, accelerate convergence and improve generalization, though the reason for their effectiveness is still an active research topic. In this work, we challenge the commonly-held beliefs by showing that none of the perceived benefits is unique to normalization. Specifically, we propose fixed-update initialization (Fixup), an initialization motivated by solving the exploding and vanishing gradient problem at the beginning of training via properly rescaling a standard initialization. We find training residual networks with Fixup to be as stable as training with normalization -- even for networks with 10,000 layers. Furthermore, with proper regularization, Fixup enables residual networks without normalization to achieve state-of-the-art performance in image classification and machine translation.

研究动机与目标

通过分析初始化时的梯度爆炸，动机在于需要在不使用归一化的情况下训练深度残差网络。
提出 Fixup 初始化，通过对残余分支进行缩放，使在不使用归一化的情况下实现稳定的、最大学习速率的训练。
在图像分类和机器翻译基准上对 Fixup 进行经验评估，并与归一化基线相比。
证明在适当的正则化下，Fixup 能在标准数据集上达到具有竞争力或最先进的结果。

提出的方法

分析未归一化的 ResNet 的梯度行为，并在正齐次性下推导梯度范数的下界。
通过以下方式引入 Fixup 初始化： (a) 将残差分支的权重按 L^{-1/(2m-2)} 进行重新缩放，(b) 将每个残差分支的最后一层和分类器层初始化为零，(c) 在每个分支中添加一个标量乘子，(d) 在每个卷积/线性/激活层之前添加一个标量偏置。
解释偏置和乘子在稳定训练和模拟归一化动态中的作用，而无需实际归一化。
通过对 CIFAR-10、ImageNet 以及机器翻译任务的实验，提供实用指南和消融分析见解。

实验结果

研究问题

RQ1是否可以在不使用归一化的情况下可靠地训练一个深度残差网络？
RQ2如果可以，是否能使用相同的最大学习率进行训练并实现可比的泛化？
RQ3为在各任务中稳定训练并与基于归一化的基线相匹配，需要哪些初始化和结构调整（Fixup）？

主要发现

Fixup 使在最大学习率下也能不使用归一化训练非常深的残差网络，在深度研究到 10,000 层时达到 BatchNorm 的性能。
在 CIFAR-10 上，结合适当的正则化，Fixup 相对于标准 Xavier 初始化提升测试误差并且在无归一化的情况下也能达到有竞争力的结果。
在 ImageNet 上，Fixup 提升了训练稳定性和测试误差，相较于标准初始化，Mixup 正则化有助于缩小与基于归一化的方法的差距。
在机器翻译中，用 Fixup 替代 LayerNorm 得到的 BLEU 分数与 LayerNorm 基线相匹配或超越，展示了跨领域的有效性。
偏置和每分支的标量乘子有助于模拟归一化般的动态并在不计算统计信息的情况下稳定学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。