Skip to main content
QUICK REVIEW

[논문 리뷰] A Mean Field Theory of Batch Normalization

Greg Yang, Jeffrey Pennington|arXiv (Cornell University)|2019. 02. 21.
Fault Detection and Control Systems참고 문헌 28인용 수 53
한 줄 요약

이 논문은 배치 정규화에 대한 평균장 이론적 프레임워크를 개발하고, 활성화 비선형성과 배치 통계를 구조화된 함수 표현 V_phi(Σ)를 통해 연결하는 표현을 도출한다.

ABSTRACT

We develop a mean field theory for batch normalization in fully-connected feedforward neural networks. In so doing, we provide a precise characterization of signal propagation and gradient backpropagation in wide batch-normalized networks at initialization. Our theory shows that gradient signals grow exponentially in depth and that these exploding gradients cannot be eliminated by tuning the initial weight variances or by adjusting the nonlinear activation function. Indeed, batch normalization itself is the cause of gradient explosion. As a result, vanilla batch-normalized networks without skip connections are not trainable at large depths for common initialization schemes, a prediction that we verify with a variety of empirical simulations. While gradient explosion cannot be eliminated, it can be reduced by tuning the network close to the linear regime, which improves the trainability of deep batch-normalized networks without residual connections. Finally, we investigate the learning dynamics of batch-normalized networks and observe that after a single step of optimization the networks achieve a relatively stable equilibrium in which gradients have dramatically smaller dynamic range. Our theory leverages Laplace, Fourier, and Gegenbauer transforms and we derive new identities that may be of independent interest.

연구 동기 및 목표

  • 배치 정규화에 대한 평균장 관점을 동기화하고 개발한다.
  • 활성화 특성과 배치 통계에 관한 V_phi(Σ)의 표현을 도출한다.
  • 활성화 함수를 배치-정규화 효과 분석을 용이하게 하는 형태로 분해한다.
  • 평균장 양을 Σ와 D를 포함하는 행렬 변환과 연결한다.
  • degree-α 동형 활성화에 대해 표현이 성립하는 조건을 탐구한다.

제안 방법

  • φ: R → R가 degree-α 양-동형임을 가정한다.
  • φ를 R에서 R^*으로의 제한에 대해 x ↦ a ρ_α(x) − b ρ_α(−x)로 분해하는 것을 사용한다.
  • V_φ(Σ)를 c_α, D^α/2, J_φ(D^−1/2 Σ D)로 표현한다.
  • 평균장 설정에 관여하는 변환 D와 Σ ∈ S_B의 관점에서 분석을 나타낸다.

실험 결과

연구 질문

  • RQ1배치 정규화는 평균장 관점을 통해 어떻게 분석할 수 있는가?
  • RQ2degree-α 동형 활성화에 대한 V_φ(Σ)의 정확한 함수 형태는 무엇이며, 활성화 매개변수 a, b, 및 ρ_α에 어떻게 의존하는가?
  • RQ3V_φ(Σ) = c_α D^α/2 J_φ(D^−1/2 Σ D)가 성립하는 조건은 무엇인가?
  • RQ4평균장 영역에서 배치 통계(Σ)와 전처리 행렬(D)은 어떻게 상호작용하는가?
  • RQ5이 이론이 배치 정규화된 네트워크에서 활성화 비선형성의 효과를 이해하는 데 가져다주는 시사점은 무엇인가?

주요 결과

  • 배치 정규화 함수적 V_φ(Σ)에 대한 평균장 표현을 확립했다.
  • 배치-정규화 효과 분석을 용이하게 하는 degree-α 양-동형 활성화의 분해를 도출했다.
  • 활성화 특성과 배치 통계를 D와 Σ를 포함하는 변환을 통해 연결했다.
  • V_φ(Σ)를 c_α, D^α/2, J_φ(D^−1/2 Σ D)와 연결하는 표현을 제공했다.
  • 고려된 활성화 클래스에 대해 표현이 성립하는 조건을 개략적으로 제시했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.