Skip to main content
QUICK REVIEW

[论文解读] Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks

Tim Salimans, Diederik P. Kingma|arXiv (Cornell University)|Feb 25, 2016
Generative Adversarial Networks and Image Synthesis参考文献 27被引用 928
一句话总结

权重归一化将权重重新参数化为 w = (g/||v||) v,以解耦长度和方向,在包括 RNN 和 RL 的各架构中提高梯度条件数并加速随机梯度下降,且相较于批量归一化的开销更低。

ABSTRACT

We present weight normalization: a reparameterization of the weight vectors in a neural network that decouples the length of those weight vectors from their direction. By reparameterizing the weights in this way we improve the conditioning of the optimization problem and we speed up convergence of stochastic gradient descent. Our reparameterization is inspired by batch normalization but does not introduce any dependencies between the examples in a minibatch. This means that our method can also be applied successfully to recurrent models such as LSTMs and to noise-sensitive applications such as deep reinforcement learning or generative models, for which batch normalization is less well suited. Although our method is much simpler, it still provides much of the speed-up of full batch normalization. In addition, the computational overhead of our method is lower, permitting more optimization steps to be taken in the same amount of time. We demonstrate the usefulness of our method on applications in supervised image recognition, generative modelling, and deep reinforcement learning.

研究动机与目标

  • 通过改善梯度条件数来推动深度神经网络的更快和更稳定的优化。

提出的方法

  • 将每个权重向量 w 重参数化为 w = (g/||v||) v,引入参数 v 和 g。
  • 使用推导出的方程计算关于 v 和 g 的梯度,从而实现对重参数化的反向传播。
  • 证明这可以将权重范数与方向解耦,从而使梯度协方差更接近单位矩阵,获得更快的收敛。
  • 将权重归一化与批量归一化联系起来,指出它是确定性的且与小批量无关。
  • 提供一个实用的初始化方案以稳定训练,并讨论如均值仅批量归一化等扩展。
  • 展示在监督、生成和强化学习任务中的适用性。

实验结果

研究问题

  • RQ1权重归一化是否比标准参数化加速训练并改善收敛?
  • RQ2在速度、开销和对学习率的鲁棒性方面,权重归一化与批量归一化相比如何?
  • RQ3在批量归一化有问题的 RNN/LSTM 和强化学习环境中,权重归一化是否能有效应用?
  • RQ4实现稳定训练所需的初始化策略是什么?

主要发现

  • 权重归一化加速收敛并在比标准参数化更宽的学习率范围内提供鲁棒优化。
  • 均值仅批量归一化与权重归一化结合在他们的设置中在 CIFAR-10 测试误差达到最佳(7.31%)。
  • 权重归一化在加速方面达到与批量归一化相似的效果,但具有更低的计算开销且不依赖小批量。
  • 应用于 CNN(CIFAR-10)、CVAEs(MNIST、CIFAR-10)、DRAW(MNIST)和 DQN(Atari),权重归一化始终加速训练并提高或匹配性能。
  • 在 CIFAR-10 实验中,带权重归一化的均值仅批量归一化在测试误差上优于标准 BN、完全归一化 BN,以及在他们的架构变体中的普通参数化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。