[論文レビュー] Differentiable Learning-to-Normalize via Switchable Normalization
Switchable Normalization (SN) は、それぞれの層で学習可能な重要度重みを用いて 3 つの正規化統計量(IN、LN、BN)を選択的に結合することを学習し、少量バッチサイズに対する頑健性と視覚タスク全体の性能向上をもたらす。
We address a learning-to-normalize problem by proposing Switchable Normalization (SN), which learns to select different normalizers for different normalization layers of a deep neural network. SN employs three distinct scopes to compute statistics (means and variances) including a channel, a layer, and a minibatch. SN switches between them by learning their importance weights in an end-to-end manner. It has several good properties. First, it adapts to various network architectures and tasks (see Fig.1). Second, it is robust to a wide range of batch sizes, maintaining high performance even when small minibatch is presented (e.g. 2 images/GPU). Third, SN does not have sensitive hyper-parameter, unlike group normalization that searches the number of groups as a hyper-parameter. Without bells and whistles, SN outperforms its counterparts on various challenging benchmarks, such as ImageNet, COCO, CityScapes, ADE20K, and Kinetics. Analyses of SN are also presented. We hope SN will help ease the usage and understand the normalization techniques in deep learning. The code of SN has been made available in https://github.com/switchablenorms/.
研究の動機と目的
- レイヤごとに異なる正規化手法を固定の選択ではなく学習可能にすることによって、学習を正規化する動機を高める。
- 端から端までの機械学習可能な機構を開発し、IN、LN、BN の統計量を重み付けする。
- SN のミニバッチサイズの広いレンジに対する頑健性を実証する。
- SN が敏感なハイパーパラメータなしで様々なアーキテクチャとタスクに適応することを示す。
提案手法
- SN を導入し、IN、LN、BN の 3 つの統計セットを、平均と分散の加重平均(Eq. 3)によって結合する。
- IN、LN、BN で計算を再利用して統計を効率的に計算する(Eq. 4)。
- 平均と分散の重要度重み w_k および w_k′ を、制御パラメータ λ_k および λ_k′ のソフトマックスによって学習する(Eq. 5)。
- ネットワークパラメータ Θ と制御パラメータ Φ を共同訓練し、損失 L(Θ,Φ) を最小化するバックプロパゲーション。
- SN を重み正規化と関連付けて正規化手法を比較することによる幾何学的解釈を提供する(Remark 1)。
- スパース性やグループ SN などの派生、推論手順をバッチ平均統計を用いて概説することを将来の課題として論じる。
実験結果
リサーチクエスチョン
- RQ1単一の正規化レイヤが、特定の層とタスクに最も適した正規化手法を選択することができるか。
- RQ2IN、LN、BN を混ぜることが、ミニバッチサイズの変動に対して統計的に性能と安定性を改善するか。
- RQ3SN は敏感なハイパーパラメータなしで、異なるネットワークアーキテクチャとデータセットに頑健か。
- RQ4学習された正規化手の重みは、分類、検出、分割、ビデオ認識などのタスクでどう適応するか。
主な発見
- SN は ImageNet 上の ResNet50 で BN や GN を上回り、バッチ設定が複数ある場合でも優れた性能を示す(例: SN は top-1 が 76.9% で、BN/GN のベースラインより優れている)。
- SN は minibatch サイズが小さい場合でも高い性能を維持し、BN が大幅に劣化するのとは対照的に、SN はバッチ設定を超える、あるいは理想的な BN に追随する。
- SN はタスクとデータセットごとに正規化子の構成を適応させ、より大きなミニバッチでは BN が好まれ、非常に小さなミニバッチでは LN が支配的になる。
- SN は物体検出(Faster R-CNN、Mask R-CNN)やセマンティックセグメンテーション(Cityscapes、ADE20K)で性能を向上させ、しばしば GN や SyncBN のベースラインを凌駕する。
- SN は Kinetics の動画認識や他のタスクでも競争力のある、あるいは優れた結果を示し、広い適用性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。