QUICK REVIEW

[논문 리뷰] On weight initialization in deep neural networks

Siddharth Krishna Kumar|arXiv (Cornell University)|2017. 04. 28.

Adversarial Robustness in Machine Learning참고 문헌 2인용 수 157

한 줄 요약

본 논문은 비선형 활성화에서의 가중치 초기화에 대한 이론을 개발하고, 0에서 미분가능한 활성화에 대한 일반 전략을 도출하며 RELU에 대한 He 초기화를 증명하고, Xavier 초기화가 RELU에서 실패할 수 있는 이유를 설명한다.

ABSTRACT

A proper initialization of the weights in a neural network is critical to its convergence. Current insights into weight initialization come primarily from linear activation functions. In this paper, I develop a theory for weight initializations with non-linear activations. First, I derive a general weight initialization strategy for any neural network using activation functions differentiable at 0. Next, I derive the weight initialization strategy for the Rectified Linear Unit (RELU), and provide theoretical insights into why the Xavier initialization is a poor choice with RELU activations. My analysis provides a clear demonstration of the role of non-linearities in determining the proper weight initializations.

연구 동기 및 목표

0에서 미분가능한 활성화에 대해 Xavier 스타일의 분산 전파를 일반화한다.
미분가능한 활성화에 대한 가중치 초기화 전략을 도출한다.
RELU에 대한 He 초기화를 엄밀히 증명한다.
RELU에서 Xavier 초기화가 실패하는 이유를 설명한다.
전달-패스 다이내믹에 대한 활성화 분포의 영향을 논의한다.

제안 방법

가우시안으로 초기화된 가중치와 독립적으로 동일한 분포를 갖는 입력을 가진 심층 네트워크의 순전파를 모델링한다.
0에서 미분가능한 활성화에 대해 0 부근에서의 테일러 전개를 사용해 층의 분산들을 관계지른다.
s_q^2 재귀관계 유도: s_{m+1}^2 ≈ (g'(0))^2 N v^2 (s_m^2 + μ_m^2).
0에서 미분가능한 활성화에 대해 v^2 = 1 / (N (g'(0))^2 (1+g(0)^2)) 를 얻는다.
tanh와 sigmoid에 특수화하여 Xavier 유사한 결과를 보인다(v^2 ≈ 1/N for tanh, v^2 ≈ ~3.6/√N for sigmoid).
비미분가능 활성화(RELU)의 경우 μ와 s^2를 계산하여 v^2 ≈ 2/N (He 초기화) 를 보인다.

실험 결과

연구 질문

RQ1비선형 활성화를 가진 심층 네트워크에서 층 입력 분산을 안정적으로 유지하기 위해 가중치를 어떻게 초기화해야 하는가?
RQ2미분가능한 활성화와 RELU에 대해 적절한 초기화 스케일은 무엇인가?
RQ3Xavier 초기화가 RELU에서 실패하는 이유는 무엇이며 He 초기화가 이를 어떻게 보완하는가?
RQ4비선형성은 층의 사전 활성화(pre-activation) 및 활성화의 분포와 분산에 어떤 영향을 미치는가?
RQ5활성화 유형들에 걸친 Xavier와 He 초기화를 연결하는 통일된 프레임워크가 있는가?

주요 결과

활성화가 0에서 미분가능한 경우의 일반적인 초기화 공식을 v^2 = 1 / (N (g'(0))^2 (1+g(0)^2))로 제시한다.
tanh(g(0)=0, g'(0)=1)의 경우 v^2 ≈ 1/N로 Xavier 초기화를 회수한다.
sigmoid(g(0)=0.5, g'(0)=1/4)의 경우 v^2 ≈ 3.6/√N이다.
RELU의 경우(0에서 비미분), 분산 유지에 의해 He 초기화가 v^2 ≈ 2/N를 준다.
Xavier 초기화는 RELU에서 더 깊은 층의 분산 감소를 초래하여 매우 깊은 네트에서 수렴 문제를 설명한다.
30-층 네트워크 예시는 RELU에 대해 Xavier보다 He를 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.