Skip to main content
QUICK REVIEW

[论文解读] Decorrelated Batch Normalization

Lei Huang, Dawei Yang|arXiv (Cornell University)|Apr 23, 2018
Advanced Neural Network Applications被引用 46
一句话总结

去相关化批量归一化(DBN)在小批量内对激活进行ZCA白化,提高BN在MLP、CNN和残差网络上的训练速度和泛化能力。

ABSTRACT

Batch Normalization (BN) is capable of accelerating the training of deep models by centering and scaling activations within mini-batches. In this work, we propose Decorrelated Batch Normalization (DBN), which not just centers and scales activations but whitens them. We explore multiple whitening techniques, and find that PCA whitening causes a problem we call stochastic axis swapping, which is detrimental to learning. We show that ZCA whitening does not suffer from this problem, permitting successful learning. DBN retains the desirable qualities of BN and further improves BN's optimization efficiency and generalization ability. We design comprehensive experiments to show that DBN can improve the performance of BN on multilayer perceptrons and convolutional neural networks. Furthermore, we consistently improve the accuracy of residual networks on CIFAR-10, CIFAR-100, and ImageNet.

研究动机与目标

  • 通过对激活进行完全白化(去相关)来改进批量归一化。
  • 识别并解决基于PCA的白化的问题,尤其是随机轴交换的问题。
  • 提出使用分组方式应用的ZCA白化,以确保稳定、可扩展的白化。
  • 在多层感知机、卷积网络和残差网络以及标准数据集上展示DBN的优势。

提出的方法

  • 定义在一个小批量内对激活进行去相关化的白化变换。
  • 证明PCA白化会导致随机轴交换,且ZCA白化可以缓解这个问题。
  • 利用矩阵微积分和特征分解结果推导通过白化变换的反向传播。
  • 引入分组白化以控制白化程度并降低计算成本。
  • 在推断阶段引入运行平均估计,并讨论可学习参数(γ,β)及其与ReLU变体(如平移ReLU)的整合。

实验结果

研究问题

  • RQ1在小批量内对激活进行白化是否能超越标准BN在优化动力学上的提升?
  • RQ2哪种白化策略(PCA与ZCA)能带来稳定且有益的训练,原因是什么?
  • RQ3应如何应用白化(全量白化 vs. 分组白化)以在性能与计算成本之间取得平衡?
  • RQ4基于DBN的网络是否在不同架构和数据集上表现出更好的条件性和泛化能力?

主要发现

  • 在MLP和CNN上,DBN在优化速度和泛化性能方面始终优于BN。
  • PCA白化导致随机轴交换,可能降级学习,而ZCA白化避免此问题并实现成功学习。
  • 分组白化提供了白化程度与计算成本之间的可调平衡,中等分组尺寸能带来更快的收敛。
  • 在CIFAR-10、CIFAR-100和ImageNet上,DBN在多种配置下提升了残差网络相对于BN的性能。
  • DBN改善了条件性,并被认为促进近似动力学等距性,有助于更深模型的训练稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。