QUICK REVIEW

[论文解读] All you need is a good init

Dmytro Mishkin, Jiřı́ Matas|arXiv (Cornell University)|Nov 19, 2015

Advanced Neural Network Applications参考文献 16被引用 206

一句话总结

本文提出层序单位方差（LSUV）初始化，一种简单的两步方法：首先使用正交权重矩阵，然后将每层输出的方差归一化为1。该方法可实现使用标准SGD训练非常深的网络，且在MNIST、CIFAR和ImageNet上达到或接近当前最优的准确率，收敛速度优于FitNets和Residual Networks等复杂方法。

ABSTRACT

Layer-sequential unit-variance (LSUV) initialization - a simple method for weight initialization for deep net learning - is proposed. The method consists of the two steps. First, pre-initialize weights of each convolution or inner-product layer with orthonormal matrices. Second, proceed from the first to the final layer, normalizing the variance of the output of each layer to be equal to one. Experiment with different activation functions (maxout, ReLU-family, tanh) show that the proposed initialization leads to learning of very deep nets that (i) produces networks with test accuracy better or equal to standard methods and (ii) is at least as fast as the complex schemes proposed specifically for very deep nets such as FitNets (Romero et al. (2015)) and Highway (Srivastava et al. (2015)). Performance is evaluated on GoogLeNet, CaffeNet, FitNets and Residual nets and the state-of-the-art, or very close to it, is achieved on the MNIST, CIFAR-10/100 and ImageNet datasets.

研究动机与目标

为解决使用标准随机梯度下降（SGD）从零开始训练非常深的神经网络所面临的挑战，该挑战常因权重初始化不佳而失败。
开发一种简单、通用且高效的初始化方法，避免使用复杂的训练方案或辅助网络。
评估一种直接的方差归一化程序是否能与FitNets和Highway Networks等复杂深度学习架构的性能相匹配或超越。
研究初始化对不同激活函数和网络架构下训练速度与最终准确率的影响。
在收敛速度和最终性能方面，将LSUV初始化与批量归一化进行比较，特别是在ImageNet等大规模数据集上。

提出的方法

使用正交矩阵对所有卷积层和全连接层的权重进行预初始化，以确保初始信号传播的稳定性。
从输入到输出逐层处理网络，通过一次前向传播使用小批量数据将每层的激活方差归一化为1。
仅在训练开始前执行一次方差归一化，使其成为一次性的预处理步骤。
使用奇异值分解（SVD）生成正交权重矩阵，确保初始权重分布保持各层单位方差。
将正交初始化与逐层方差归一化相结合，以稳定梯度流动，防止梯度消失或爆炸。
使用标准SGD训练网络，不引入额外的归一化层或复杂的优化方案。

实验结果

研究问题

RQ1一种简单、一次性权重初始化程序是否能够实现使用标准SGD进行非常深网络的端到端训练？
RQ2LSUV初始化在标准基准测试上是否优于或等同于FitNets和Highway Networks等复杂深度学习架构的性能？
RQ3在收敛速度和最终准确率方面，LSUV与批量归一化相比如何，特别是在ImageNet等大规模数据集上？
RQ4LSUV在ReLU、maxout和tanh等不同激活函数上是否均能有效工作？
RQ5LSUV是否能减少训练时间并改善收敛性，同时在训练过程中不引入计算开销？

主要发现

LSUV初始化在MNIST、CIFAR-10/100和ImageNet上实现了当前最优或接近最优的测试准确率，优于或等同于FitNets和Highway Networks等复杂方法。
在GoogLeNet上，LSUV初始化的网络收敛更快，最终top-1准确率达到68.0%，高于原始初始化的67.2%，表现出一致的性能提升。
在CaffeNet上，LSUV将初始平坦损失阶段从0.5个周期减少到0.05个周期，但最终准确率仍比原始网络低1.3%，原因尚不明确。
LSUV初始化在实际运行时间上与批量归一化相当，LSUV网络在CIFAR-10上达到与BN相当的性能，同时避免了每轮迭代约30%的计算开销。
该方法在ReLU、maxout和tanh等不同激活函数上均表现出鲁棒性，且性能提升一致。
LSUV初始化的计算成本极低——CaffeNet最多仅需3.5分钟，与训练时间相比可忽略不计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。