QUICK REVIEW

[論文レビュー] Decorrelated Batch Normalization

Lei Huang, Dawei Yang|arXiv (Cornell University)|Apr 23, 2018

Advanced Neural Network Applications被引用数 46

ひとこと要約

Decorrelated Batch Normalization (DBN) は ZCA whitening を用いてミニバッチ内の活性化を白色化（ホワイトニング）し、BN の訓練速度と一般化性能を MLP、CNN、残差ネットワーク全体で向上させる。

ABSTRACT

Batch Normalization (BN) is capable of accelerating the training of deep models by centering and scaling activations within mini-batches. In this work, we propose Decorrelated Batch Normalization (DBN), which not just centers and scales activations but whitens them. We explore multiple whitening techniques, and find that PCA whitening causes a problem we call stochastic axis swapping, which is detrimental to learning. We show that ZCA whitening does not suffer from this problem, permitting successful learning. DBN retains the desirable qualities of BN and further improves BN's optimization efficiency and generalization ability. We design comprehensive experiments to show that DBN can improve the performance of BN on multilayer perceptrons and convolutional neural networks. Furthermore, we consistently improve the accuracy of residual networks on CIFAR-10, CIFAR-100, and ImageNet.

研究の動機と目的

Batch Normalization の改善を、活性化の完全な白色化（デコレーション）を追加することで動機付ける。
PCA ベースの白色化の問題点、特に確率的な軸の入れ替えを特定し対処する。
安定でスケーラブルな白色化を保証するため、グループごとに適用する ZCA 白色化を提案する。
標準データセットを横断して多層パーセプトロン、畳み込みネット、残差ネットにおける DBN の利点を実証する。

提案手法

ミニバッチ内の活性化をデコレルする白色化変換を定義する。
PCA 白色化が確率的な軸入れ替えを引き起こし、ZCA 白色化がこの問題を緩和することを示す。
行列微分と固有分解の結果を用いて白色化変換を通した逆伝播を導出する。
白色化の程度を制御し計算コストを削減するためのグループ白色化を導入する。
推論のためのランニング平均推定を取り入れ、学習可能なパラメータ（γ,β）と ReLU 系（例：Translated ReLU）との統合について論じる。

実験結果

リサーチクエスチョン

RQ1ミニバッチ内の活性化を白色化することで、標準の BN を超える最適化ダイナミクスを得られるか。
RQ2どの白色化戦略（PCA 対 ZCA）が安定的で有益な学習を生むか、そしてその理由は何か。
RQ3パフォーマンスと計算コストのバランスを取るために、白色化は全体かグループ白色化のどちらを適用すべきか。
RQ4DBN を用いたネットワークは、アーキテクチャやデータセットを横断して条件づけと一般化の向上を示すか。

主な発見

DBN は MLP および CNN において BN よりも最適化速度と generalization を一貫して向上させる。
PCA 白色化は軸の入れ替えを引き起こし学習を悪化させる可能性があるのに対し、ZCA 白色化はこの問題を回避し、学習を成功させる。
グループ白色化は白色化の程度と計算コストの間の調整可能なバランスを提供し、中間のグループサイズで収束が速くなる。
DBN は CIFAR-10、CIFAR-100、ImageNet における残差ネットの性能を BN と比較して向上させ、複数の構成で効果を示す。
DBN は条件づけを改善し、近似的なダイナミカル等方性（dynamical isometry）を促進することで、深いモデルの訓練安定性の向上に寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。