Skip to main content
QUICK REVIEW

[論文レビュー] Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks

Tim Salimans, Diederik P. Kingma|arXiv (Cornell University)|Feb 25, 2016
Generative Adversarial Networks and Image Synthesis参考文献 27被引用数 928
ひとこと要約

Weight normalization は重みを w = (g/||v||) v と再パラメータ化し、長さと方向をデカップリングして、勾配の条件づけを改善し、RNN や RL を含むアーキテクチャ全体で確率的勾配降下法を高速化します。バッチ正規化よりオーバーヘッドが低い。

ABSTRACT

We present weight normalization: a reparameterization of the weight vectors in a neural network that decouples the length of those weight vectors from their direction. By reparameterizing the weights in this way we improve the conditioning of the optimization problem and we speed up convergence of stochastic gradient descent. Our reparameterization is inspired by batch normalization but does not introduce any dependencies between the examples in a minibatch. This means that our method can also be applied successfully to recurrent models such as LSTMs and to noise-sensitive applications such as deep reinforcement learning or generative models, for which batch normalization is less well suited. Although our method is much simpler, it still provides much of the speed-up of full batch normalization. In addition, the computational overhead of our method is lower, permitting more optimization steps to be taken in the same amount of time. We demonstrate the usefulness of our method on applications in supervised image recognition, generative modelling, and deep reinforcement learning.

研究の動機と目的

  • 勾配の条件づけを改善することにより、ディープニューラルネットワークの最適化をより速く安定させることを動機づける。

提案手法

  • 各ウェイトベクトル w を w = (g/||v||) v と再パラメータ化し、パラメータ v と g を導入する。
  • 導出された式を用いて v および g に関する勾配を計算し、再パラメータ化を介したバックプロパゲーションを可能にする。
  • これによりウェイトノルムと方向を分離し、勾配の共分散が単位行列に近づき、収束が速くなることを示す。
  • ウェイト正規化をバッチ正規化と関連づけ、決定論的でミニバッチに依存しないことに注意する。
  • 訓練を安定化させる実用的な初期化スキームを提供し、平均のみのバッチ正規化などの拡張を議論する。
  • 教師あり、生成モデル、および強化学習タスク全般への適用性を示す。

実験結果

リサーチクエスチョン

  • RQ1ウェイト正規化は標準パラメトリゼーションと比較して訓練を高速化し、収束を改善しますか?
  • RQ2速度、オーバーヘッド、学習率に対するロバスト性の観点で、ウェイト正規化はバッチ正規化とどう比較されますか?
  • RQ3バッチ正規化が問題になるRNN/LSTMや強化学習設定にも効果的に適用できますか?
  • RQ4ウェイト正規化で安定した訓練を実現するために必要な初期化戦略は何ですか?

主な発見

モデルテスト誤差(%)
Maxout11.68%
Network in Network10.41%
Deeply Supervised9.60%
ConvPool-CNN-C9.31%
ALL-CNN-C9.08%
Our CNN, mean-only B.N.8.52%
Our CNN, weight norm.8.46%
Our CNN, normal param.8.43%
Our CNN, batch norm.8.05%
Our W.N. + mean-only B.N.7.31%
  • ウェイト正規化は収束を加速し、標準的なパラメトリゼーションよりも広い学習率範囲で頑健な最適化を提供します。
  • 平均のみのバッチ正規化とウェイト正規化を組み合わせると、彼らの設定で最良の CIFAR-10 テストエラー (7.31%) が得られます。
  • ウェイト正規化はバッチ正規化と同様の加速を達成しますが、計算オーバーヘッドが低く、ミニバッチ依存がありません。
  • CNNs (CIFAR-10)、CVAEs (MNIST, CIFAR-10)、DRAW (MNIST)、および DQN (Atari) に適用すると、ウェイト正規化は訓練を一貫して高速化し、性能を改善または同等にする。
  • CIFAR-10 の実験では、平均のみのバッチ正規化とウェイト正規化を組み合わせた手法が、標準 BN、完全正規化 BN、通常のパラメトリゼーションを上回るテスト誤差を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。