QUICK REVIEW

[論文レビュー] Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models

Sergey Ioffe|arXiv (Cornell University)|Feb 10, 2017

Machine Learning and Data Classification参考文献 10被引用数 244

ひとこと要約

Batch RenormalizationはBatch Normalizationを拡張し、ミニバッチ依存性を低減します。これにより、小さなミニバッチや非独立同分布（non-i.i.d.）のミニバッチでも安定した訓練を実現しつつ、訓練効率と他のBNの利点を維持します。各次元ごとのアフィン補正（r, d）をミニバッチから計算して導入しますが、逆伝播では定数として扱われ、訓練が進むにつれて徐々に緩和されます。

ABSTRACT

Batch Normalization is quite effective at accelerating and improving the training of deep models. However, its effectiveness diminishes when the training minibatches are small, or do not consist of independent samples. We hypothesize that this is due to the dependence of model layer inputs on all the examples in the minibatch, and different activations being produced between training and inference. We propose Batch Renormalization, a simple and effective extension to ensure that the training and inference models generate the same outputs that depend on individual examples rather than the entire minibatch. Models trained with Batch Renormalization perform substantially better than batchnorm when training with small or non-i.i.d. minibatches. At the same time, Batch Renormalization retains the benefits of batchnorm such as insensitivity to initialization and training efficiency.

研究の動機と目的

ミニバッチが小さい場合や非 i.i.d. のときの Batch Normalization の欠点を動機づけて対処する。
推論と同様に学習時の活性化を個々の例に依存させる拡張を開発する。
学習速度や初期化の頑健性といった BN の利点を維持しつつ、訓練時の活性化と推論時の活性化を一致させる。
調整可能な補正境界と移動平均更新を備えた、実用的で実装しやすい手法を提供する。

提案手法

勾配計算中は定数として扱われる、Batch Normalizationの活性化に対する次元ごとの補正因子 r および d を導入する。
ミニバッチ統計から r と d を計算するが、r_max および d_max でクリップし、それらの値には stop_gradient を適用する。
訓練中は補正に mu および sigma の移動平均を用い、統計を最新のままにするために更新率 alpha を高く設定する。
訓練中に補正境界を徐々に緩和して、BN から Renorm への移行を行う。
x, y, mu, sigma, r, d, gamma, beta の明示的なバックプロパゲーション方程式を提供する。
mu と sigma を更新し、順伝播と逆伝播で再正規化を適用するアルゴリズムを概説する。

実験結果

リサーチクエスチョン

RQ1Batch Renormalizationは、小さなミニバッチや非i.i.d.なミニバッチで観察される訓練時と推論時の活性化の不一致を低減できるか。
RQ2Batch Renormalizationは、難易度の高いミニバッチ設定で性能を向上させつつ、BNの利点（訓練速度、初期化の頑健性）を維持できるか。
RQ3安定した訓練のために補正境界（r_max, d_max）と移動平均更新率（alpha）をどのようにスケジュールすべきか。
RQ4BNが一般的に使用されるアーキテクチャとタスク（例：Inception/V3による画像分類）全般で、Batch Renormalizationは有効か。

主な発見

Batch Renormalizationは、Inception-v3を用いたImageNetでミニバッチサイズ32、50ワーカー時にBatch Normalizationと比較して同等またはわずかに高い検証精度を達成（78.3%ベースBN対78.5%でRenorm）。
ミニバッチが4個のマイクロミニバッチでは、Batch RenormはBatchNormより訓練が速く、精度も高くなる（130kステップで76.5%、BatchNormは210kステップで74.2%）。
ラベルでサンプリングされた非i.i.d.ミニバッチでは、BatchNormの性能が崩れる一方、Batch Renormはベースラインに近い精度へ回復（120kステップで78.5%）。
Batch Renormalizationは、メトリック学習のようなミニバッチ設定で観察される biased ミニバッチ分布への過学習を排除する。
この手法は実装が容易でBNと同程度の速度で動作し、補正の緩和をスケジュールするα、r_max、d_maxといったハイパーパラメータを導入している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。