Skip to main content
QUICK REVIEW

[논문 리뷰] Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs

Jonathan Frankle, David J. Schwab|arXiv (Cornell University)|2020. 02. 29.
Domain Adaptation and Few-Shot Learning참고 문헌 36인용 수 79
한 줄 요약

이 논문은 나머지 가중치를 모두 고정하고 BatchNorm 아핀 매개변수(gamma와 beta)만 학습시키는 것이 놀랍도록 높은 정확도를 낳았으며, 심층 CNN 전반의 임의 특징에서의 각 특징별 아핀 변환의 강한 표현력을 보여준다.

ABSTRACT

A wide variety of deep learning techniques from style transfer to multitask learning rely on training affine transformations of features. Most prominent among these is the popular feature normalization technique BatchNorm, which normalizes activations and then subsequently applies a learned affine transform. In this paper, we aim to understand the role and expressive power of affine parameters used to transform features in this way. To isolate the contribution of these parameters from that of the learned features they transform, we investigate the performance achieved when training only these parameters in BatchNorm and freezing all weights at their random initializations. Doing so leads to surprisingly high performance considering the significant limitations that this style of training imposes. For example, sufficiently deep ResNets reach 82% (CIFAR-10) and 32% (ImageNet, top-5) accuracy in this configuration, far higher than when training an equivalent number of randomly chosen parameters elsewhere in the network. BatchNorm achieves this performance in part by naturally learning to disable around a third of the random features. Not only do these results highlight the expressive power of affine parameters in deep learning, but - in a broader sense - they characterize the expressive power of neural networks constructed simply by shifting and rescaling random features.

연구 동기 및 목표

  • BatchNorm 아핀 매개변수(gamma와 beta)가 초기화 시 모든 다른 네트워크 가중치가 동결된 상태에서 표현력이 얼마나 돵는지 평가한다.
  • CIFAR-10 및 ImageNet에서 BatchNorm 만 학습했을 때 네트워크가 완전히 학습되었을 때와 비교해 얼마나 잘 수행되는지 정량화한다.
  • BatchNorm 만 학습 가능할 때 네트워크의 깊이와 너비가 성능에 어떤 영향을 주는지 조사한다.
  • gamma와 beta 값이 어떻게 변화하고 특징 가지치기와 희소성에 어떻게 기여하는지 분석한다.

제안 방법

  • BatchNorm 아핀 매개변수(gamma와 beta)를 학습시키고 나머지 네트워크 가중치는 무작위 초기화 상태로 고정한다.
  • 다양한 깊이와 너비의 ResNet에서 CIFAR-10과 ImageNet에 걸쳐 네트워크를 평가한다.
  • 완전히 학습된 네트워크와 비교하고, 동등한 수의 무작위로 선택된 매개변수를 학습했을 때의 성능과 비교한다.
  • 학습된 gamma/beta 분포와 그것이 특징 희소성 및 활성화 희소성에 미치는 영향을 분석한다.

실험 결과

연구 질문

  • RQ1임의 특징에서 개별 특징에 대한 BatchNorm 매개변수의 표현력은 어느 정도인가?
  • RQ2깊은 CNN에서 gamma와 beta만 학습했을 때 CIFAR-10 및 ImageNet에서 어떤 정확도를 달성할 수 있는가?
  • RQ3이restricted 학습 방식에서 네트워크의 깊이와 너비가 성능에 어떤 영향을 주는가?
  • RQ4gamma/beta가 특징의 하위 집합을 비활성화하도록 학습하고, 이것이 활성화에 어떤 영향을 미치는가?

주요 결과

  • gamma와 beta만 학습하는 경우, 매개변수의 무작위 서브셋을 학습하는 경우에 비해 높은 정확도를 보인다(예: CIFAR-10은 심층 네트워크에서; ImageNet의 top-5는 최대 32%).
  • 동등한 크기의 무작위 매개변수는 BatchNorm 아핀 매개변수보다 훨씬 성능이 떨어지며, gamma와 beta의 각 특징별 파워를 강조한다.
  • BatchNorm-만 학습하는 경우 gamma가 채널의 대략 4분의 1에서 3분의 1 정도를 억제하는 경향을 보이며(값이 0에 근접), 특징별 희소성을 시사한다.
  • 깊고 넓은 네트워크가 BatchNorm-만 학습하는 정확도를 향상시키며, 주어진 BatchNorm 매개변수 예산에서 깊이가 너비보다 기여가 더 큰 것으로 나타난다.
  • 출력이 BatchNorm과 함께 학습될 때 정확도가 더 상승하는데, 이는 아핀 매개변수가 SOTA 성능에 결정적이지만 단독으로는 충분하지 않음을 시사한다.
  • 활성화는 BatchNorm-만 학습하는 경우 희소화되며, gamma가 거의 0에 가까운 특징의 비율이 상당히 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.