[논문 리뷰] Comparison of Batch Normalization and Weight Normalization Algorithms for the Large-scale Image Classification
논문은 ResNet-50 on ImageNet에서 Batch Normalization (BN)과 Weight Normalization (WN) 방법을 비교하고, WN이 더 빠른 학습 및 더 나은 학습 정확도에도 불구하고 BN이 테스트 정확도에서 유의하게 더 높은 성능을 보인다는 것을 발견합니다(약 6% 포인트 차이). 또한 깊은 네트워크에서 WN의 안정성 문제와 활성화 정규화의 불완전성을 보고합니다.
Batch normalization (BN) has become a de facto standard for training deep convolutional networks. However, BN accounts for a significant fraction of training run-time and is difficult to accelerate, since it is a memory-bandwidth bounded operation. Such a drawback of BN motivates us to explore recently proposed weight normalization algorithms (WN algorithms), i.e. weight normalization, normalization propagation and weight normalization with translated ReLU. These algorithms don't slow-down training iterations and were experimentally shown to outperform BN on relatively small networks and datasets. However, it is not clear if these algorithms could replace BN in practical, large-scale applications. We answer this question by providing a detailed comparison of BN and WN algorithms using ResNet-50 network trained on ImageNet. We found that although WN achieves better training accuracy, the final test accuracy is significantly lower ($\approx 6\%$) than that of BN. This result demonstrates the surprising strength of the BN regularization effect which we were unable to compensate for using standard regularization techniques like dropout and weight decay. We also found that training of deep networks with WN algorithms is significantly less stable compared to BN, limiting their practical applications.
연구 동기 및 목표
- BN과 WN의 대규모 이미지 분류에 대한 비교 동기를 형성한다.
- 깊은 네트워크에서 WN 알고리즘이 실제로 BN을 대체할 수 있는지 평가한다.
- 깊은 아키텍처에서 WN의 안정성 및 정규화 동작을 조사한다.
제안 방법
- BN 및 세 가지 WN 변형(NP 및 TReLU WN 포함)으로 ImageNet에서 ResNet-50을 학습한다.
- 교육 설정을 동등하게 맞춘다: 모멘텀을 갖춘 SGD, 120 에폭, 배치 크기 256, 공정한 비교를 위한 동일한 데이터 전처리.
- 학습 곡선, 수렴 속도 및 최종 테스트 정확도를 분석한다.
- 정규화의 효과를 평가하기 위해 학습 중 활성화 정규화와 층별 출력 노름을 검사한다.
실험 결과
연구 질문
- RQ1가중치 정규화 알고리즘이 대규모 이미지 분류에서 배치 정규화와 일치하거나 능가할 수 있는가?
- RQ2WN 알고리즘이 ImageNet의 ResNet-50 같은 깊은 네트워크에서 더 빠르거나 더 안정적인 학습을 제공하는가?
- RQ3BN의 정규화 효과가 WN을 사용할 때 정규화 기법(드롭아웃, 가중치 감소)을 통해 재현될 수 있는가?
- RQ4WN 방법이 깊은 네트워크에서 활성화를 완전히 정규화하는가, 아니면 계층별로 출력 노름이 발산하도록 허용하는가?
주요 결과
| Model | Dataset | Top-1 Test Accuracy |
|---|---|---|
| BN | ImageNet | ~73% |
| WN | ImageNet | ~67% |
- WN은 ImageNet에서 학습 곡선에서 BN보다 더 빠른 수렴과 더 높은 학습 정확도를 달성한다.
- Final test top-1 accuracy with WN은 ImageNet에서 ResNet-50에 대해 BN보다 약 6 percentage points 낮다.
- BN은 더 강한 규제 효과를 제공하며 드롭아웃이나 증가된 가중치 감소로 WN을 재현할 수 없었다.
- WN은 깊은 네트워크에서 불안정을 보이며 활성화를 완전히 정규화하지 못하고, 출력 노름이 계층을 따라 증가할 가능성이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.