[論文レビュー] Evolving Normalization-Activation Layers
この論文は正規化と活性化を単一の探索空間に統合し、拒絶プロトコル付きの進化と多アーキテクチャ評価を用いて EvoNorms を発見する。これらは CNN バックボーンやタスクを超えて一般化する新規の正規化-活性化層である。
Normalization layers and activation functions are fundamental components in deep networks and typically co-locate with each other. Here we propose to design them using an automated approach. Instead of designing them separately, we unify them into a single tensor-to-tensor computation graph, and evolve its structure starting from basic mathematical functions. Examples of such mathematical functions are addition, multiplication and statistical moments. The use of low-level mathematical functions, in contrast to the use of high-level modules in mainstream NAS, leads to a highly sparse and large search space which can be challenging for search methods. To address the challenge, we develop efficient rejection protocols to quickly filter out candidate layers that do not work well. We also use multi-objective evolution to optimize each layer's performance across many architectures to prevent overfitting. Our method leads to the discovery of EvoNorms, a set of new normalization-activation layers with novel, and sometimes surprising structures that go beyond existing design patterns. For example, some EvoNorms do not assume that normalization and activation functions must be applied sequentially, nor need to center the feature maps, nor require explicit activation functions. Our experiments show that EvoNorms work well on image classification models including ResNets, MobileNets and EfficientNets but also transfer well to Mask R-CNN with FPN/SpineNet for instance segmentation and to BigGAN for image synthesis, outperforming BatchNorm and GroupNorm based layers in many cases.
研究の動機と目的
- 正規化と活性化の設計を別々に扱うのではなく、共同設計を動機づける。
- 低レベルの数学的操作を用いて新しいビルディングブロックを探索するテンソル間の計算グラフを定式化する。
- スパースな探索空間とクロスアーキテクチャ一般化を促進する拒否プロトコルとマルチオブジェクティブ進化を開発する。
- EvoNorms を発見し、それらを画像分類、インスタンス分割、GAN トレーニングの各分野での有効性を示す。
提案手法
- プリミティブ演算(加算、乗算、モーメント など)から構築された単一の計算グラフに正規化と活性化を統合する。
- 層を固定ノード予算と入力と訓練可能定数を含む14ノードを含むDAGとして表現する。
- 進化の過程で空間を探索するためにランダムグラフ生成と三段階の変異を使用する。
- 二つの拒否プロトコル(品質と安定性)を適用して、貧弱または不安定な層を早期に剪定する。
- クロスアーキテクチャ一般化を促進するために複数のアンカーアーキテクチャ(ResNet-50、MobileNetV2、EfficientNet-B0)で候補を評価する。
- マルチオブジェクティブトーナメント選択(平均とパレートフロンティア)を実施して進化を導く。
- ImageNet 上でトップ層を再ランク付けし、COCO(Mask R-CNN)と BigGAN でクロスドメイン転移を検証する。
実験結果
リサーチクエスチョン
- RQ1低レベルの数学操作から正規化と活性化を共同で効果的に発見できるか?
- RQ2 EvoNorms は分類を超えた多様なアーキテクチャやタスクに一般化するか?
- RQ3スパースで高次元の NAS 空間に対して有効な探索戦略は何か?
主な発見
| Layer | R-50 | MV2 | MN | EN-B0 | EN-B5 |
|---|---|---|---|---|---|
| BN-ReLU | 76.3 ±0.1 | 76.2 ±0.1 | 77.6 ±0.1 | 77.7 ±0.1 | 73.4 ±0.1 |
| BN-SiLU/Swish | 76.6 ±0.1 | 77.3 ±0.1 | 78.2 ±0.1 | 78.2 ±0.0 | 74.5 ±0.1 |
| Random | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 |
| Random + rej | 71.7 ±0.2 | 70.8 ±0.1 | 63.6 ±18.9 | 55.3 ±17.5 | 1e-3 |
| RS + rej | 75.8 ±0.1 | 76.3 ±0.0 | 77.4 ±0.1 | 77.5 ±0.1 | 73.5 ±0.1 |
| EvoNorm-B0 | 76.6 ±0.0 | 77.7 ±0.1 | 77.9 ±0.1 | 78.4 ±0.1 | 75.0 ±0.1 |
| EvoNorm-B1 | 76.1 ±0.1 | 77.5 ±0.0 | 77.7 ±0.0 | 78.0 ±0.1 | 74.6 ±0.1 |
| EvoNorm-B2 | 76.6 ±0.2 | 77.7 ±0.1 | 78.0 ±0.1 | 78.4 ±0.1 | 74.6 ±0.1 |
- EvoNorms は ImageNet 上で BN-ReLU を複数のアーキテクチャ(ResNet、MobileNetV2、EfficientNet)で一貫して上回る。
- Batch-dependent EvoNorms (B-series) は BN-ReLU および GN-ReLU 組み合わせに対して Mask R-CNN COCO インスタンス分割で強い利得を示す。
- Batch-independent EvoNorms (S-series) は varying batch sizes で GN-ReLU および FRN より競争力があり、バッチ統計が利用できない場合でも堅牢な性能。
- EvoNorm-B0 はデノミネータにバッチとインスタンス統計を組み合わせ、明示的な活性化関数を省略でき、標準的でないが効果的な設計パターンを示す。
- EvoNorms は非分類タスクへ効果的に転移する: Mask R-CNN の AP 指標の改善、BigGAN の IS/FID の競争力が示され、強い一般化を示す。
- 分析は EvoNorms がしばしばスケール不変性を促進し、混合分散とテンソル間変換を含むことを示し、従来の正規化を超える設計原理を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。