QUICK REVIEW

[论文解读] Normalization Propagation: A Parametric Technique for Removing Internal Covariate Shift in Deep Networks

Devansh Arpit, Yingbo Zhou|arXiv (Cornell University)|Mar 4, 2016

Gaussian Processes and Bayesian Inference参考文献 12被引用 86

一句话总结

本文提出Normalization Propagation（NormProp），一种数据无关的参数化技术，通过使用均值和标准差的闭式估计，解析地将归一化统计量传播至各层，从而消除深层网络中的内部协变量偏移。与批量归一化不同，NormProp避免使用批量统计量，支持使用批量大小为1进行训练，并实现更快的推理速度，同时在CIFAR-10、CIFAR-100和SVHN基准上实现具有竞争力或更优的准确率以及更快的收敛速度。

ABSTRACT

While the authors of Batch Normalization (BN) identify and address an important problem involved in training deep networks-- Internal Covariate Shift-- the current solution has certain drawbacks. Specifically, BN depends on batch statistics for layerwise input normalization during training which makes the estimates of mean and standard deviation of input (distribution) to hidden layers inaccurate for validation due to shifting parameter values (especially during initial training epochs). Also, BN cannot be used with batch-size 1 during training. We address these drawbacks by proposing a non-adaptive normalization technique for removing internal covariate shift, that we call Normalization Propagation. Our approach does not depend on batch statistics, but rather uses a data-independent parametric estimate of mean and standard-deviation in every layer thus being computationally faster compared with BN. We exploit the observation that the pre-activation before Rectified Linear Units follow Gaussian distribution in deep networks, and that once the first and second order statistics of any given dataset are normalized, we can forward propagate this normalization without the need for recalculating the approximate statistics for hidden layers.

研究动机与目标

为解决批量归一化存在的局限性，特别是其依赖小批量统计量导致早期训练期间验证估计不准确的问题。
消除对批量统计量的依赖以实现归一化，支持批量大小为1，并改善训练过程中的泛化能力。
开发一种参数化、数据无关的方法，无需在每层重新计算统计量，即可将归一化特性传播至深层网络。
通过避免维护批量统计量的移动平均值，实现更快的训练和更稳定的收敛。
证明可通过关于预激活分布的高斯假设和权重矩阵的非相干性，实现归一化的解析传播。

提出的方法

NormProp为每层的预激活值使用闭式、数据无关的均值和标准差估计，假设其服从高斯分布。
它利用线性变换和归一化之间的代数结构，无需重新估算统计量，即可将归一化从输入层向前传播至所有隐藏层。
该方法通过调整每层的权重矩阵，以保持归一化分布，确保训练迭代过程中输入统计量的一致性。
归一化按单元独立应用，类似于批量归一化，但在训练或推理期间不使用小批量统计量。
该方法假设预激活值近似服从高斯分布，且权重矩阵大致非相干，从而实现归一化的解析传播。
它避免计算批量统计量的运行平均值，降低计算开销，支持批量大小为1的训练。

实验结果

研究问题

RQ1是否可以在训练或推理过程中不依赖批量统计量，有效缓解内部协变量偏移？
RQ2参数化、数据无关的归一化方法是否能实现与批量归一化相当或更优的性能，同时更快、更稳定？
RQ3是否可以使用闭式统计估计而非迭代批量统计量，有效将归一化传播至深层网络？
RQ4在权重参数快速变化的早期训练阶段，NormProp是否能保持隐藏层输入分布的稳定性？
RQ5是否可能使用不依赖批量统计量的归一化技术，实现批量大小为1的深层网络训练？

主要发现

在使用数据增强的情况下，NormProp在CIFAR-10上达到7.47%的测试误差，优于批量归一化（7.25%），并匹配或超越现有SOTA方法。
在CIFAR-100上，NormProp在使用数据增强的情况下达到29.24%的测试误差，优于批量归一化（30.26%）和现有SOTA方法。
在SVHN上，NormProp达到1.88%的测试误差，显著优于批量归一化（2.25%）和其他SOTA模型。
与批量归一化相比，NormProp将训练时间减少了约12%，在CIFAR-10上每轮训练耗时84秒，而批量归一化为96秒。
由于不使用移动平均批量统计量，该方法在验证过程中保持了更稳定的隐藏层输入分布，尤其是在早期训练阶段。
NormProp支持批量大小为1的训练，而批量归一化因依赖批量统计量而无法实现此功能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。