[논문 리뷰] High-Performance Large-Scale Image Recognition Without Normalization
이 논문은 Adaptive Gradient Clipping (AGC)와 Normalizer-Free Network (NFNet) 아키텍처를 제시하여 정규화 계층 없이도 최첨단 ImageNet 성능을 달성하고, EfficientNets와 대등하거나 이를 능가하며 학습은 훨씬 빠르고, 강력한 데이터 증강과 대형 모델에 대한 SAM 마감의 이점을 제공한다.
Batch normalization is a key component of most image classification models, but it has many undesirable properties stemming from its dependence on the batch size and interactions between examples. Although recent work has succeeded in training deep ResNets without normalization layers, these models do not match the test accuracies of the best batch-normalized networks, and are often unstable for large learning rates or strong data augmentations. In this work, we develop an adaptive gradient clipping technique which overcomes these instabilities, and design a significantly improved class of Normalizer-Free ResNets. Our smaller models match the test accuracy of an EfficientNet-B7 on ImageNet while being up to 8.7x faster to train, and our largest models attain a new state-of-the-art top-1 accuracy of 86.5%. In addition, Normalizer-Free models attain significantly better performance than their batch-normalized counterparts when finetuning on ImageNet after large-scale pre-training on a dataset of 300 million labeled images, with our best models obtaining an accuracy of 89.2%. Our code is available at https://github.com/deepmind/ deepmind-research/tree/master/nfnets
연구 동기 및 목표
- 대규모 이미지 분류에서 배치 정규화의 한계를 이해한다.
- 경쟁력 있는 정확도를 유지하는 정규화 없는 학습 체제를 개발한다.
- 최소한의 하이퍼파라미터 조정으로 안정적인 대형 배치 학습을 가능하게 한다.
- 현대 가속기에서 학습 속도를 최적화하도록 NFNet 아키텍처를 설계한다.
- 대규모 사전 학습 후 전이 학습 및 미세 조정의 이점을 입증한다.
제안 방법
- 학습의 안정화를 위해 대응하는 가중치 노름에 상대적으로 단위당 그라디언트 노름을 클립하는 Adaptive Gradient Clipping (AGC)을 제안한다.
- 분산 보존 초기화와 Scaled Weight Standardization를 이용한 Normalizer-Free ResNet (NFNet) 블록을 채택하고 개선한다.
- 활성화 통계를 제어하기 위해 학습 가능한 skip-init 스케일과 조정된 squeeze-excite 스케일링을 도입한다.
- 학습 지연을 중점으로 하는 깊이, 폭, 해상도 확장 전략으로 F0–F6의 NFNet 아키텍처 계열을 설계한다.
- 정규화되지 않은 네트에서 과적합을 방지하기 위해 강력한 정규화 및 데이터 증강(MixUp, RandAugment, CutMix)을 적용한다.
- 1024–4096의 큰 배치 크기로 ImageNet에서 성능을 평가하고 배치 정규화된 대비 EfficientNets와 비교한다.
실험 결과
연구 질문
- RQ1정규화 없는 아키텍처와 적응형 그라디언트 클리핑이 BN 기반 네트워크와 비교해 ImageNet 정확도와 학습 속도에서 경쟁력을 가지는가?
- RQ2데이터 증강과 정규화가 NFNet 블록과 어떻게 상호작용하여 최첨단 성능을 달성하는가?
- RQ3NFNet의 학습 속도-정확도 트레이드오프를 최적화하는 깊이 분포, 폭 패턴, 추가 컨볼루션 등의 아키텍처 선택은 무엇인가?
- RQ4대규모 사전 학습 후 BN 기반 네트워크에 비해 NFNet이 전이 학습에서 여전히 이점을 가지는가?
- RQ5매우 큰 배치 학습에서 적응형 그라디언트 클리핑이 안정성과 성능에 어떤 영향을 주는가?
주요 결과
| 모델 | FLOPs | 파라미터 | Top-1 | Top-5 | TPUv3 학습 | GPU 학습 |
|---|---|---|---|---|---|---|
| NFNet-F0 | 12.38B | 71.5M | 83.6 | 96.8 | 73.3ms | 56.7ms |
| EffNet-B0 | 0.39B | 5.3M | 77.1 | 93.3 | 51.1ms | 44.8ms |
| SENet-50 | 4.09B | 28.0M | 79.4 | 94.6 | 64.3ms | 59.4ms |
| NFNet-F1 | 35.54B | 132.6M | 84.7 | 97.1 | 158.5ms | 133.9ms |
| EffNet-B3 | 1.80B | 12.0M | 81.6 | 95.7 | 129.5ms | 116.6ms |
| LambdaNet-152 | - | 51.5M | 83.0 | 96.3 | 138.3ms | 135.2ms |
| SENet-152 | 19.04B | 66.6M | 83.1 | 96.4 | 149.9ms | 151.2ms |
| BoTNet-110 | 10.90B | 54.7M | 82.8 | 96.3 | 181.3ms | - |
| NFNet-F2 | 62.59B | 193.8M | 85.1 | 97.3 | 295.8ms | 226.3ms |
| SENet-350 | 52.90B | 115.2M | 83.8 | 96.6 | 593.6ms | - |
| EffNet-B5 | 9.90B | 30.0M | 83.7 | 96.7 | 450.5ms | 458.9ms |
| NFNet-F3 | 114.76B | 254.9M | 85.7 | 97.5 | 532.2ms | 524.5ms |
| LambdaNet-420 | - | 124.8M | 84.8 | 97.0 | 593.9ms | - |
| EffNet-B6 | 19.00B | 43.0M | 84.0 | 96.8 | 775.7ms | 868.2ms |
| BoTNet-128-T7 | 45.80B | 75.1M | 84.7 | 97.0 | 804.5ms | - |
| NFNet-F4 | 215.24B | 316.1M | 85.9 | 97.6 | 1033.3ms | 1190.6ms |
| EffNet-B7 | 37.00B | 66.0M | 84.7 | 97.0 | 1397.0ms | 1753.3ms |
| NFNet-F5 | 289.76B | 377.2M | 86.0 | 97.6 | 1398.5ms | 2177.1ms |
| NFNet-F5+SAM | 289.76B | 377.2M | 86.3 | 97.9 | 1958.0ms | - |
| NFNet-F6+SAM | 377.28B | 438.4M | 86.5 | 97.9 | 2774.1ms | - |
- NFNet-F1은 EfficientNet-B7의 정밀도와 일치하면서 학습 속도는 8.7배 빨라졌다.
- 가장 큰 NFNet 변형들은 SAM으로 86.5%의 최상위-1 정확도에 도달했다.
- NFNets는 3억 이미지 데이터셋에서 사전 학습 후 미세 조정 시 BN 기반 네트워크보다 성능이 앞서며 89.2%의 Top-1을 달성했다.
- AGC는 NFNet의 배치 크기를 4096까지 안정적으로 학습시키고 강력한 증강을 가능하게 하며, AGC 없이 NFResNet은 실패한다.
- NFNet-F5는 ImageNet에서 Top-1 86.0%에 도달해 FLOPs 대비 정확도에서 더 큰 EfficientNet 변형들과 경쟁하며 학습 지연을 우선한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.