QUICK REVIEW

[論文レビュー] High-Performance Large-Scale Image Recognition Without Normalization

Andrew Brock, Soham De|arXiv (Cornell University)|Feb 11, 2021

Advanced Neural Network Applications参考文献 84被引用数 256

ひとこと要約

本論文はAdaptive Gradient Clipping (AGC) と Normalizer-Free Network (NFNet) アーキテクチャを導入し、正規化層を用いずに最先端のImageNet結果を達成、EfficientNetsと同等以下を上回りつつ訓練がはるかに速く、強力なデータ拡張と最大型モデル向けの SAM を活用。

ABSTRACT

Batch normalization is a key component of most image classification models, but it has many undesirable properties stemming from its dependence on the batch size and interactions between examples. Although recent work has succeeded in training deep ResNets without normalization layers, these models do not match the test accuracies of the best batch-normalized networks, and are often unstable for large learning rates or strong data augmentations. In this work, we develop an adaptive gradient clipping technique which overcomes these instabilities, and design a significantly improved class of Normalizer-Free ResNets. Our smaller models match the test accuracy of an EfficientNet-B7 on ImageNet while being up to 8.7x faster to train, and our largest models attain a new state-of-the-art top-1 accuracy of 86.5%. In addition, Normalizer-Free models attain significantly better performance than their batch-normalized counterparts when finetuning on ImageNet after large-scale pre-training on a dataset of 300 million labeled images, with our best models obtaining an accuracy of 89.2%. Our code is available at https://github.com/deepmind/ deepmind-research/tree/master/nfnets

研究の動機と目的

バッチ正規化の大規模画像分類における限界を理解する。
競争力のある精度を維持する正規化不要の訓練 regime を開発する。
最小限のハイパーパラメータ調整で安定した大規模バッチ訓練を可能にする。
最新の加速器上での訓練速度最適化を目指したNFNetアーキテクチャを設計する。
大規模事前学習後の転移学習とファインチューニングの利点を示す。

提案手法

学習を安定化させるため、単位ごとの勾配ノルムを対応する重みノルムに対してクリップするAdaptive Gradient Clipping (AGC) を提案する。
分散を保つ初期化とScaled Weight Standardizationを用いたNormaliser-Free ResNet (NFNet)ブロックを採用・改良する。
学習活性化統計を制御するための学習可能なスキップ初期スカラーと調整された squeeze-excite スケーリングを組み込む。
訓練遅延に焦点を当てた深さ・幅・解像度スケーリング戦略を持つNFNetファミリー（F0–F6）を設計する。
正規化なしネットで過適合を抑制するため、強力な正則化とデータ拡張（MixUp、RandAugment、CutMix）を適用する。
大規模バッチサイズ（1024–4096）でImageNet上の性能を評価し、BNベースの対数とEfficientNetと比較する。

実験結果

リサーチクエスチョン

RQ1正規化不要アーキテクチャと適応勾配クリッピングを組み合わせて、BNベースの nets より高い訓練速度でImageNet精度競争力を得られるか。
RQ2データ拡張と正則化はNFNetブロックとどう相互作用して最先端性能を達成するか。
RQ3深さ分布、幅パターン、追加畳み込みなど、NFNetsの訓練速度と精度のトレードオフを生み出すアーキテクチャ選択は何か。
RQ4大規模事前学習後の転移学習で、BNベースのネットワークと比べてNFNetsは利点を保持するか。
RQ5高い大規模バッチ訓練で、適応勾配クリッピングは安定性と性能にどう影響するか。

主な発見

モデル	演算量 (FLOPs)	パラメータ	Top-1	Top-5	TPUv3 訓練	GPU 訓練
NFNet-F0	12.38B	71.5M	83.6	96.8	73.3ms	56.7ms
EffNet-B0	0.39B	5.3M	77.1	93.3	51.1ms	44.8ms
SENet-50	4.09B	28.0M	79.4	94.6	64.3ms	59.4ms
NFNet-F1	35.54B	132.6M	84.7	97.1	158.5ms	133.9ms
EffNet-B3	1.80B	12.0M	81.6	95.7	129.5ms	116.6ms
LambdaNet-152	-	51.5M	83.0	96.3	138.3ms	135.2ms
SENet-152	19.04B	66.6M	83.1	96.4	149.9ms	151.2ms
BoTNet-110	10.90B	54.7M	82.8	96.3	181.3ms	-
NFNet-F2	62.59B	193.8M	85.1	97.3	295.8ms	226.3ms
SENet-350	52.90B	115.2M	83.8	96.6	593.6ms	-
EffNet-B5	9.90B	30.0M	83.7	96.7	450.5ms	458.9ms
NFNet-F3	114.76B	254.9M	85.7	97.5	532.2ms	524.5ms
LambdaNet-420	-	124.8M	84.8	97.0	593.9ms	-
EffNet-B6	19.00B	43.0M	84.0	96.8	775.7ms	868.2ms
BoTNet-128-T7	45.80B	75.1M	84.7	97.0	804.5ms	-
NFNet-F4	215.24B	316.1M	85.9	97.6	1033.3ms	1190.6ms
EffNet-B7	37.00B	66.0M	84.7	97.0	1397.0ms	1753.3ms
NFNet-F5	289.76B	377.2M	86.0	97.6	1398.5ms	2177.1ms
NFNet-F5+SAM	289.76B	377.2M	86.3	97.9	1958.0ms	-
NFNet-F6+SAM	377.28B	438.4M	86.5	97.9	2774.1ms	-

NFNet-F1はEfficientNet-B7の精度に匹敵しつつ訓練が8.7倍速い。
最大のNFNetバリアントはSAMで最先端のトップ1精度86.5%に達する。
NFNetsは事前学習後にBNベースネットワークよりファインチューニングで優れており、トップ1で89.2%を達成。
AGCはNFNetsの訓練を4096までのバッチサイズで安定化させ、AGCなしのNFResNetsは失敗する強力な拡張を受ける。
NFNet-F5はImageNetでトップ1 86.0%を達成し、訓練遅延を優先しつつFLOPs対精度でより大きなEfficientNet変種と競合。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。