QUICK REVIEW

[논문 리뷰] Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks

Soham De, Samuel Smith|arXiv (Cornell University)|2020. 02. 24.

Adversarial Robustness in Machine Learning참고 문헌 47인용 수 63

한 줄 요약

요약: 이 논문은 배치 정규화가 초기화 시 잔차 블록을 항등으로 편향시켜 매우 깊은 ResNet을 가능하게 한다는 점을 설명하고, 정규화 없이 학습하는 깊은 잔차 네트워크를 훈련시키기 위한 SkipInit을 도입하며 배치 크기가 학습률과 규제에 미치는 영향을 연구한다.

ABSTRACT

Batch normalization dramatically increases the largest trainable depth of residual networks, and this benefit has been crucial to the empirical success of deep residual networks on a wide range of benchmarks. We show that this key benefit arises because, at initialization, batch normalization downscales the residual branch relative to the skip connection, by a normalizing factor on the order of the square root of the network depth. This ensures that, early in training, the function computed by normalized residual blocks in deep networks is close to the identity function (on average). We use this insight to develop a simple initialization scheme that can train deep residual networks without normalization. We also provide a detailed empirical study of residual networks, which clarifies that, although batch normalized networks can be trained with larger learning rates, this effect is only beneficial in specific compute regimes, and has minimal benefits when the batch size is small.

연구 동기 및 목표

배치 정규화가 매우 깊은 잔차 네트워크의 학습 가능성을 어떻게 높이는지 설명한다.
정규화 없이 깊은 ResNet을 학습하기 위한 초기화 스킴(SkipInit)을 제안한다.
정규화된 네트워크와 비정규화 네트워크의 학습률 이점을 배치 크기에 따라 실증적으로 연구한다.
잔차 아키텍처에서 배치 정규화의 정규화 효과를 정량화한다.
ImageNet에서 배치 정규화와 SkipInit을 비교하고 배치 크기에 따라 Fixup과의 성능 차이를 분석한다.

제안 방법

정규화된 가지와 비정규화 가지의 초기화 시 분산 전이의 이론적 분석.
SkipInit 도입: 잔차 분기 말단에 학습 가능한 스칼라 α를 도입하고 이를 α로 초기화하여 정규화의 다운스케일링 효과를 흉내 내는 방식(일반적으로 0 또는 1/√d).
CIFAR-10에서 Wide-ResNets를 깊이(16–1000층)로 SGD, 모멘텀, 데이터 증강을 사용해 BN, SkipInit, 변형 간의 성능 비교를 실증적으로 수행.
BN, SkipInit, 비정규화 네트의 학습률이 배치 크기와 어떻게 상호작용하는지 평가하기 위한 체계적 배치 크기 실험(ghost batch 기법 포함).
정규화의 일반화 효과를 배치 크기를 달리해 연구하고 Regularized SkipInit(드롭아웃, 바이어스)을 도입해 일반화 성능을 비교한다.
이미지넷의 BN, SkipInit, Fixup을 추가 규제 여부와 함께 비교한다.

실험 결과

연구 질문

RQ1왜 배치 정규화가 매우 깊은 잔차 네트워크의 학습을 가능하게 만드는가?
RQ2SkipInit와 같은 초기화가 정규화의 이로운 효과를 없이도 BN의 이점을 재현할 수 있는가?
RQ3잔차 아키텍처에서 BN, SkipInit, 비정규화 네트의 배치 크기와 학습률이 어떻게 상호작용하는가?
RQ4BN이 SkipInit에 비해 일반화에 미치는 정규화 효과는 어떠한가?
RQ5다양한 배치 크기 하에서 SkipInit과 Fixup이 BN에 비해 ImageNet에서 어떤 성능을 보이는가?

주요 결과

깊이의 제곱근 규모 정도로 잔차 분기를 다운 스케일링하여 초기 시에 잔차 블록을 항등으로 편향시켜 BN의 효과를 만든다.
SkipInit은 잔차 배율 매개변수 α를 0 또는 1/√d로 초기화하여 BN의 다운스케일링 효과를 모방함으로써 정규화 없이 매우 깊은 잔차 네트워크를 학습시킬 수 있다.
BN은 더 큰 안정적인 학습률과 큰 배치 크기에서 더 나은 성능을 가능하게 하지만, 작은 배치 크기에서는 BN이 SkipInit보다 테스트 정확도가 여전히 높은 경우가 많아 이득이 제한적이다.
배치 크기가 중간일 때 BN의 정규화 이점이 가장 뚜렷하며, Regularized SkipInit은 추가 규제가 사용될 때 소규모 배치에서 BN보다 우수한 일반화 성능을 낼 수 있다.
ImageNet에서 SkipInit(바이어스 포함)이나 Fixup은 표준 배치 크기에서 BN과 비슷하거나 다르게 동작하며, 매우 큰 배치 크기에서는 BN이 우세하지만 추가 규제가 있을 때는 SkipInit 기반 변형이 BN을 능가할 수 있다.
실험 결과 BN의 주요 이점은 큰 학습률을 가능하게 하는 것이 아니라 항등으로의 편향성에 더 큰 기여를 한다는 점이 시사된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.