QUICK REVIEW

[論文レビュー] Fixup Initialization: Residual Learning Without Normalization

Hongyi Zhang, Yann Dauphin|arXiv (Cornell University)|Jan 27, 2019

Advanced Neural Network Applications参考文献 29被引用数 112

ひとこと要約

Fixup 初期化は、残差ブランチ、バイアス、および乗数を慎重にスケーリングして更新を適切にスケールさせることにより、正規化なしで非常に深い残差ネットワークの訓練を可能にする。これにより、いくつかのタスクで正規化の性能と同等になり、適切な正則化を適用すれば最先端の結果を達成できる。

ABSTRACT

Normalization layers are a staple in state-of-the-art deep neural network architectures. They are widely believed to stabilize training, enable higher learning rate, accelerate convergence and improve generalization, though the reason for their effectiveness is still an active research topic. In this work, we challenge the commonly-held beliefs by showing that none of the perceived benefits is unique to normalization. Specifically, we propose fixed-update initialization (Fixup), an initialization motivated by solving the exploding and vanishing gradient problem at the beginning of training via properly rescaling a standard initialization. We find training residual networks with Fixup to be as stable as training with normalization -- even for networks with 10,000 layers. Furthermore, with proper regularization, Fixup enables residual networks without normalization to achieve state-of-the-art performance in image classification and machine translation.

研究の動機と目的

正規化なしで深い残差ネットワークを訓練する必要性を分析して動機づける。
正規化なしで安定かつ最大学習速度の訓練を実現するために、残差ブランチをスケーリングするFixup初期化を提案する。
正規化を基準としたベースラインと比較して、画像分類と機械翻訳のベンチマークでFixupを実証的に評価する。
適切な正則化を用いると、Fixupは標準データセットで競争力のある、または最先端の結果を達成できることを示す。

提案手法

正規化されていないResNetの勾配挙動を分析し、正のホモジニー性の下で勾配ノルムの下界を導出する。
Fixup初期化を導入する：(a) 残差ブランチの重みを L^{-1/(2m-2)} で再スケーリング、(b) 各残差ブランチの最後の層と分類器層をゼロで初期化、(c) 各ブランチにスカラー乗数を追加、(d) 各畳み込み/線形/活性化層の前にスカラー偏置を追加。
学習を安定させ、実際の正規化なしで正規化のダイナミクスを模倣するうえで、バイアスと乗数の役割を説明する。
CIFAR-10、ImageNet、機械翻訳タスクでの実験を通じて、実用的なガイドラインとアブレーションの洞察を提供する。

Figure 1: Left: ResNet basic block. Batch normalization (Ioffe & Szegedy, 2015 ) layers are marked in red. Middle: A simple network block that trains stably when stacked together. Right: Fixup further improves by adding bias parameters. (See Section 3 for details.)

実験結果

リサーチクエスチョン

RQ1正規化なしで深い残差ネットワークを信頼性高く訓練できるか？
RQ2もし可能なら、同じ最大学習率で訓練し、同等の汎化性能を達成できるか？
RQ3トレーニングを安定化し、タスク全体で正規化ベースのベースラインに匹敵させるために、どのような初期化とアーキテクチャ的調整（Fixup）が必要か？

主な発見

Fixupは最大学習率で正規化なしの非常に深い残差ネットを訓練可能にし、10,000 層までの深さの研究で BatchNorm の性能に匹敵する。
CIFAR-10では、適切な正則化を伴うFixupは従来のXavier初期化と比較してテスト誤差を改善し、正規化なしでも競争力のある結果を達成できる。
ImageNetでは、Fixupは標準初期化より訓練の安定性とテスト誤差を改善し、Mixup正則化が正規化ベースの手法との差を縮めるのに役立つ。
機械翻訳では LayerNorm を Fixup に置換すると BLEU スコアが LayerNorm ベースラインに匹敵または上回り、ドメイン横断の効果を示す。
バイアスと各ブランチのスカラー乗数は、正規化に類似したダイナミクスを模倣し、統計量を計算せずに学習を安定化させるのに役立つ。）

Figure 2: Examples of p.h. sets in a ResNet without normalization: (1) the first convolution layer before max pooling; (2) the fully connected layer before softmax; (3) the union of a spatial downsampling layer in the backbone and a convolution layer in its corresponding residual branch.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。