Skip to main content
QUICK REVIEW

[论文解读] Weight Standardization

Siyuan Qiao, Huiyu Wang|arXiv (Cornell University)|Mar 25, 2019
Advanced Neural Network Applications被引用 49
一句话总结

本文提出权重标准化(WS)和批-通道归一化(BCN),以提升在微批次设置下的深度网络训练性能,其中由于批次统计信息不足,标准批量归一化(BN)表现不佳。WS通过标准化卷积层权重来降低损失和梯度的Lipschitz常数,而BCN则结合批量归一化与通道归一化,利用估计的激活统计信息,避免有害奇点,显著提升了目标检测、语义分割和视频识别等任务的性能,甚至可匹配或超越使用大批次的BN。

ABSTRACT

Batch Normalization (BN) has become an out-of-box technique to improve deep network training. However, its effectiveness is limited for micro-batch training, i.e., each GPU typically has only 1-2 images for training, which is inevitable for many computer vision tasks, e.g., object detection and semantic segmentation, constrained by memory consumption. To address this issue, we propose Weight Standardization (WS) and Batch-Channel Normalization (BCN) to bring two success factors of BN into micro-batch training: 1) the smoothing effects on the loss landscape and 2) the ability to avoid harmful elimination singularities along the training trajectory. WS standardizes the weights in convolutional layers to smooth the loss landscape by reducing the Lipschitz constants of the loss and the gradients; BCN combines batch and channel normalizations and leverages estimated statistics of the activations in convolutional layers to keep networks away from elimination singularities. We validate WS and BCN on comprehensive computer vision tasks, including image classification, object detection, instance segmentation, video recognition and semantic segmentation. All experimental results consistently show that WS and BCN improve micro-batch training significantly. Moreover, using WS and BCN with micro-batch training is even able to match or outperform the performances of BN with large-batch training.

研究动机与目标

  • 解决在微批次训练中批量归一化(BN)性能下降的问题,此时每块GPU仅处理1–2张图像,受限于内存容量。
  • 通过引入保留BN核心优势的技术,克服BN在微批次场景下的局限性:平滑损失曲面并避免有害奇点。
  • 在内存受限的视觉任务(如目标检测、实例分割和语义分割)中,实现使用微批次对深层网络进行有效训练。
  • 开发不依赖大批次的训练稳定性和性能保持方法,而大批次在实际中往往不可行。

提出的方法

  • 权重标准化(WS)通过将卷积层权重除以其在通道上的标准差,对卷积层权重进行标准化,从而降低损失和梯度的Lipschitz常数。
  • WS按卷积层逐层应用,且不依赖批次统计信息,因此适用于微批次训练。
  • 批-通道归一化(BCN)结合批量归一化与通道归一化,利用估计的激活统计信息以稳定训练并避免消除奇点。
  • BCN结合批次级与通道级统计信息,在小批量情况下维持归一化稳定性。
  • 所提出的方法可无缝集成至标准训练流程中,并在无需架构修改的情况下应用于多种视觉任务。
  • WS与BCN设计为即插即用,兼容现有模型与优化器。

实验结果

研究问题

  • RQ1在BN因统计信息不足而失效的微批次训练中,权重标准化是否能有效平滑损失曲面?
  • RQ2在微批次条件下,结合批量与通道归一化是否能缓解训练轨迹中的有害奇点?
  • RQ3WS与BCN的结合是否能使微批次训练性能达到或超越使用大批次BN训练的性能,特别是在内存受限的视觉任务中?
  • RQ4WS与BCN是否可普遍应用于无需架构修改的多样化计算机视觉任务?

主要发现

  • 权重标准化显著降低了损失和梯度的Lipschitz常数,从而在微批次训练中实现了更平滑的损失曲面。
  • 批-通道归一化能有效防止网络在小批量训练中陷入有害的消除奇点。
  • WS与BCN的结合在图像分类、目标检测、实例分割、视频识别和语义分割等任务中均实现了稳定且一致的性能提升。
  • 采用WS与BCN的微批次训练在所有评估任务上的性能均匹配或超越了使用大批次BN的性能。
  • 所提出方法具有鲁棒性与泛化能力,在无需修改模型架构或训练超参数的情况下实现性能增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。