QUICK REVIEW

[논문 리뷰] Understanding Batch Normalization

Johan Björck, Carla P. Gomes|arXiv (Cornell University)|2018. 06. 01.

Stochastic Gradient Optimization Techniques참고 문헌 41인용 수 40

한 줄 요약

배치 정규화(Batch Normalization, BN)는 주로 더 큰 학습률로의 학습을 가능하게 하여 더 빠른 수렴과 더 나은 일반화로 이어진다; BN이 없으면 깊이가 깊어질수록 그래디언트와 활성화가 발산할 수 있는 반면, BN은 활성화를 제로 평균 및 단위 분산으로 유지하여 학습을 안정시킨다.

ABSTRACT

Batch normalization (BN) is a technique to normalize activations in intermediate layers of deep neural networks. Its tendency to improve accuracy and speed up training have established BN as a favorite technique in deep learning. Yet, despite its enormous success, there remains little consensus on the exact reason and mechanism behind these improvements. In this paper we take a step towards a better understanding of BN, following an empirical approach. We conduct several experiments, and show that BN primarily enables training with larger learning rates, which is the cause for faster convergence and better generalization. For networks without BN we demonstrate how large gradient updates can result in diverging loss and activations growing uncontrollably with network depth, which limits possible learning rates. BN avoids this problem by constantly correcting activations to be zero-mean and of unit standard deviation, which enables larger gradient steps, yields faster convergence and may help bypass sharp local minima. We further show various ways in which gradients and activations of deep unnormalized networks are ill-behaved. We contrast our results against recent findings in random matrix theory, shedding new light on classical initialization schemes and their consequences.

연구 동기 및 목표

배치 정규화(BN) 이점의 기전을 원래의 내부 공변량 시프트 가설을 넘어 연구한다.
BN이 더 큰 학습률을 가능하게 하는 정도와 이것이 더 빠른 수렴 및 더 나은 일반화에 어떻게 기여하는지 정량화한다.
정규화되지 않은 네트워크가 BN이 활성화된 네트워크에 비해 깊이가 증가할수록 비정상적으로 동작하는 그래디언트와 활성화를 보이는지 조사한다.
깊은 네트워크의 초기화와 조건화에 대한 랜덤 행렬 이론의 통찰과 경험적 결과를 연결한다.

제안 방법

다양한 학습률에서 BN vs. 비 BN을 비교하기 위해 CIFAR-10에서 110층 ResNet을 이용한 경험적 분석.
발산 및 안정성 특성을 파악하기 위한 학습률 구간 및 학습 역학의 체계적 탐색.
레이어 간 평균/분산을 포함한 그래디언트 및 활성화 분포의 시각화 및 측정.
BN이 그래디언트 크기에 어떤 변화를 주는지 이해하기 위한 합성곱 가중치 그래디언트와 채널별 영향 분석.
깊은 네트워크의 초기화 및 조건화 효과를 해석하기 위한 랜덤 행렬 이론과의 연결.

실험 결과

연구 질문

RQ1배치 정규화가 주로 더 큰 학습률을 가능하게 하는지, 그리고 이것이 이점의 주된 원천인지?
RQ2정규화되지 않은 네트워크와 BN이 적용된 네트워크에서 그래디언트와 활성화가 특히 깊이가 증가할수록 어떻게 동작하는가?
RQ3랜덤 행렬 이론에 비추어 BN의 효과에서 네트워크 초기화와 조건화의 역할은 무엇인가?
RQ4마지막 레이어만 정규화하는 것이 중간 BN 층만 정규화하는 것만큼 효과적일까?
RQ5큰 기울기 업데이트를 적용할 때 BN이 발산 위험에 어떤 영향을 미치는가?

주요 결과

BN은 큰 학습률로의 학습을 가능하게 하여 비정규화된 네트워크에 비해 더 빠른 수렴과 향상된 일반화를 얻게 한다.
BN이 없으면 학습률이 큰 경우 그래디언트와 활성화가 깊이에 따라 발산하고 증가하는 반면, BN은 활성화를 제로 평균 및 단위 분산으로 고정하여 학습을 안정시킨다.
BN은 초기화로 인한 불안정성에 대한 강건성을 제공하며, 깊은 선형 시스템 및 조건화에 대한 랜덤 행렬 이론 통찰과 일치한다.
BN이 적용된 네트워크는 초기화 시 클래스 간 그래디언트가 더 고르게 분포하는 반면, 정규화되지 않은 네트워크는 단일 클래스에 대해 상관관계가 높고 큰 그래디언트를 보인다.
BN 이점의 상당 부분은 최종 출력 층의 정규화에서 나오며, 이는 성능 향상의 큰 부분을 차지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.