Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift

Xiang Li, Shuo Chen|arXiv (Cornell University)|2018. 01. 16.
Advanced Neural Network Applications참고 문헌 17인용 수 39
한 줄 요약

이 논문은 드롭아웃과 배치 정규화(BN)를 결합할 때 성능 저하의 핵심 원인으로 훈련과 추론 시 활성화 분산 간의 불일치인 '분산 이동(variance shift)'을 규명한다. 이를 해결하기 위해 드롭아웃을 BN 레이어 뒤에 적용하는 것과 균일한 노이즈를 사용하는 분산 안정성 드롭아웃 변형인 'Uout'을 도입하는 두 가지 솔루션을 제안하며, CIFAR 및 ImageNet 벤치마크에서 불안정성을 크게 감소시키고 정확도를 향상시킨다.

ABSTRACT

This paper first answers the question "why do the two most powerful techniques Dropout and Batch Normalization (BN) often lead to a worse performance when they are combined together?" in both theoretical and statistical aspects. Theoretically, we find that Dropout would shift the variance of a specific neural unit when we transfer the state of that network from train to test. However, BN would maintain its statistical variance, which is accumulated from the entire learning procedure, in the test phase. The inconsistency of that variance (we name this scheme as "variance shift") causes the unstable numerical behavior in inference that leads to more erroneous predictions finally, when applying Dropout before BN. Thorough experiments on DenseNet, ResNet, ResNeXt and Wide ResNet confirm our findings. According to the uncovered mechanism, we next explore several strategies that modifies Dropout and try to overcome the limitations of their combination by avoiding the variance shift risks.

연구 동기 및 목표

  • 딥 네ural 네트워크에서 드롭아웃과 배치 정규화를 결합할 때 성능 저하의 근본 원인을 규명하는 것.
  • 다양한 네트워크 상태 하에서 훈련 단계와 추론 단계 간 활성화 분산의 불일치를 분석하는 것.
  • 분산 이동으로 인한 불안정성을 수정된 훈련 및 추론 전략을 통해 해결하는 것.
  • 정규화 이점을 유지하면서도 성능을 향상시키는 실용적인 두 가지 솔루션을 제안하고 검증하는 것.

제안 방법

  • 이론적 분석을 통해 드롭아웃은 추론 시 유지 비율 p에 따라 활성화 분산을 확대하는 반면, BN은 훈련 중 누적된 고정된 이동 분산을 유지하므로, 이로 인해 불일치가 발생함을 밝힘.
  • 저자들은 이와 같은 훈련 및 추론 모드 간의 일관되지 않은 분산 행동을 '분산 이동'이라고 정의함.
  • 네트워크의 순방향 전파 초기 단계에서 분산이 손상되지 않도록 드롭아웃을 BN 레이어 뒤에 배치하는 전략을 제안함.
  • 베르누이 분포 대신 균일한 노이즈(r ~ U[-β, β])를 사용하는 'Uout'이라는 수정된 드롭아웃을 설계하여, 분산 이동을 p에서 약 3/(3+β²)로 감소시킴.
  • 이론적 유도를 통해 Uout의 분산 이동 비율이 표준 드롭아웃보다 훨씬 1.0에 가까워지며, 이는 수치적 불안정성을 최소화함을 확인함.
  • CIFAR10/100 및 ImageNet에서 ResNet, DenseNet, ResNeXt, Wide ResNet에 대한 광범위한 실험을 통해 제안된 방법의 유효성을 검증함.

실험 결과

연구 질문

  • RQ1왜 드롭아웃과 배치 정규화를 함께 사용할 경우 딥 네트워크에서 성능이 악화되는가?
  • RQ2드롭아웃을 BN 이전에 적용할 경우, 어떤 특정한 통계적 불일치가 추론 시 불안정성을 유발하는가?
  • RQ3레이어 순서를 재정렬하거나 드롭아웃 메커니즘을 수정함으로써 성능 저하를 완화할 수 있는가?
  • RQ4분산 안정성 드롭아웃 형태가 분산 이동의 영향을 줄이고 일반화 성능을 향상시키는가?

주요 결과

  • 모든 BN 레이어 뒤에 드롭아웃을 적용하는 것은 ImageNet에서 일관되게 상위-1 정확도를 향상시키며, ResNet-200는 21.70%에서 21.48%로, ResNeXt-101은 20.40%에서 20.17%로 향상됨.
  • β=0.1일 때 'Uout'은 분산 이동을 표준 드롭아웃의 0.9에서 약 0.9967로 감소시켜 추론 시의 안정성을 크게 향상시킴.
  • CIFAR100에서 β=0.2인 Uout은 DenseNet과 WRN에서 표준 드롭아웃보다 0.3%의 정확도 향상을 기록하며, 여러 시행에 걸쳐 일관된 개선을 보임.
  • 실험 결과 분산 이동이 불안정성의 주요 원인임을 확인하였으며, 드롭아웃을 BN 이전에 적용할 경우 실제 추론 시 활성화 분산이 BN의 이동 분산과 크게 다름.
  • 제안된 솔루션인 BN 이후 드롭아웃과 Uout은 계산 오버헤드가 극히 적은 수준에서 일관된 성능 향상을 달성함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.