Skip to main content
QUICK REVIEW

[논문 리뷰] On weight initialization in deep neural networks

Siddharth Krishna Kumar|arXiv (Cornell University)|2017. 04. 28.
Adversarial Robustness in Machine Learning참고 문헌 2인용 수 157
한 줄 요약

본 논문은 비선형 활성화에서의 가중치 초기화에 대한 이론을 개발하고, 0에서 미분가능한 활성화에 대한 일반 전략을 도출하며 RELU에 대한 He 초기화를 증명하고, Xavier 초기화가 RELU에서 실패할 수 있는 이유를 설명한다.

ABSTRACT

A proper initialization of the weights in a neural network is critical to its convergence. Current insights into weight initialization come primarily from linear activation functions. In this paper, I develop a theory for weight initializations with non-linear activations. First, I derive a general weight initialization strategy for any neural network using activation functions differentiable at 0. Next, I derive the weight initialization strategy for the Rectified Linear Unit (RELU), and provide theoretical insights into why the Xavier initialization is a poor choice with RELU activations. My analysis provides a clear demonstration of the role of non-linearities in determining the proper weight initializations.

연구 동기 및 목표

  • 0에서 미분가능한 활성화에 대해 Xavier 스타일의 분산 전파를 일반화한다.
  • 미분가능한 활성화에 대한 가중치 초기화 전략을 도출한다.
  • RELU에 대한 He 초기화를 엄밀히 증명한다.
  • RELU에서 Xavier 초기화가 실패하는 이유를 설명한다.
  • 전달-패스 다이내믹에 대한 활성화 분포의 영향을 논의한다.

제안 방법

  • 가우시안으로 초기화된 가중치와 독립적으로 동일한 분포를 갖는 입력을 가진 심층 네트워크의 순전파를 모델링한다.
  • 0에서 미분가능한 활성화에 대해 0 부근에서의 테일러 전개를 사용해 층의 분산들을 관계지른다.
  • s_q^2 재귀관계 유도: s_{m+1}^2 ≈ (g'(0))^2 N v^2 (s_m^2 + μ_m^2).
  • 0에서 미분가능한 활성화에 대해 v^2 = 1 / (N (g'(0))^2 (1+g(0)^2)) 를 얻는다.
  • tanh와 sigmoid에 특수화하여 Xavier 유사한 결과를 보인다(v^2 ≈ 1/N for tanh, v^2 ≈ ~3.6/√N for sigmoid).
  • 비미분가능 활성화(RELU)의 경우 μ와 s^2를 계산하여 v^2 ≈ 2/N (He 초기화) 를 보인다.

실험 결과

연구 질문

  • RQ1비선형 활성화를 가진 심층 네트워크에서 층 입력 분산을 안정적으로 유지하기 위해 가중치를 어떻게 초기화해야 하는가?
  • RQ2미분가능한 활성화와 RELU에 대해 적절한 초기화 스케일은 무엇인가?
  • RQ3Xavier 초기화가 RELU에서 실패하는 이유는 무엇이며 He 초기화가 이를 어떻게 보완하는가?
  • RQ4비선형성은 층의 사전 활성화(pre-activation) 및 활성화의 분포와 분산에 어떤 영향을 미치는가?
  • RQ5활성화 유형들에 걸친 Xavier와 He 초기화를 연결하는 통일된 프레임워크가 있는가?

주요 결과

  • 활성화가 0에서 미분가능한 경우의 일반적인 초기화 공식을 v^2 = 1 / (N (g'(0))^2 (1+g(0)^2))로 제시한다.
  • tanh(g(0)=0, g'(0)=1)의 경우 v^2 ≈ 1/N로 Xavier 초기화를 회수한다.
  • sigmoid(g(0)=0.5, g'(0)=1/4)의 경우 v^2 ≈ 3.6/√N이다.
  • RELU의 경우(0에서 비미분), 분산 유지에 의해 He 초기화가 v^2 ≈ 2/N를 준다.
  • Xavier 초기화는 RELU에서 더 깊은 층의 분산 감소를 초래하여 매우 깊은 네트에서 수렴 문제를 설명한다.
  • 30-층 네트워크 예시는 RELU에 대해 Xavier보다 He를 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.