[论文解读] Normalization Techniques in Training DNNs: Methodology, Analysis and Application
本综述回顾用于训练深度神经网络的归一化方法,提出统一的分类法,并讨论激活、权重和梯度归一化及其应用与理论。
Normalization techniques are essential for accelerating the training and improving the generalization of deep neural networks (DNNs), and have successfully been used in various applications. This paper reviews and comments on the past, present and future of normalization methods in the context of DNN training. We provide a unified picture of the main motivation behind different approaches from the perspective of optimization, and present a taxonomy for understanding the similarities and differences between them. Specifically, we decompose the pipeline of the most representative normalizing activation methods into three components: the normalization area partitioning, normalization operation and normalization representation recovery. In doing so, we provide insight for designing new normalization technique. Finally, we discuss the current progress in understanding normalization methods, and provide a comprehensive review of the applications of normalization for particular tasks, in which it can effectively solve the key issues.
研究动机与目标
- 通过归一化来加速DNN训练并提升泛化的动机。
- 提供统一的分类法以比较多样化的归一化方法。
- 分析归一化如何影响优化及训练动态。
- 总结面向任务的归一化方法及其应用的最新进展。
- 讨论对归一化理解的理论见解与未解问题。
提出的方法
- 将归一化方法分解为归一化区域分区(NAP)、归一化操作(NOP)和归一化表示恢复(NRR)。
- 将激活归一化按总体统计量与基于函数的方法进行分类。
- 回顾归一化类型:激活(总体统计和基于函数)、权重和梯度。
- 讨论带反向传播考虑的白化、去相关和标准化变体。
- 在统一框架中分析 BN、LN、GN、IN、PN、BGN 和局部归一化方法。
- 总结优化理论视角,包括条件数与 Fisher 信息近似。
实验结果
研究问题
- RQ1DNNs中不同归一化方法的主要动机是什么,以及分类法如何捕捉它们的异同?
- RQ2如何将归一化的经验成功与理论理解联系起来?
- RQ3哪些最新进展使得针对不同应用的任务定制化归一化成为可能?
- RQ4归一化方法如何影响优化条件、稳定性和泛化?
主要发现
- 归一化方法旨在使层输入/梯度的统计量在跨层之间趋于一致,以避免病态的优化景观。
- 激活可以通过总体统计量归一化或作为函数变换来实现,具有三部分分解(NAP、NOP、NRR)。
- BN 推广了小批量统计量,但在小批量和训练-推理差距方面存在挑战;LN、GN、IN 解决了这些局限。
- 基于白化的方法(BW、ZCA、PCA)拓展了标准化并可改善条件性,分组白化降低成本。
- 一个框架(Algorithm 1)将归一化概念化为区域划分、操作和表示恢复,指导新方法设计。
- 讨论的应用包括领域自适应、风格迁移、GANs 和高效模型,其中归一化会改变激活统计量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。