[논문 리뷰] On the Selection of Initialization and Activation Function for Deep Neural Networks
이 논문은 혼돈의 경계(edge of chaos)에서의 초기화와 활성화 함수가 심층 신경망의 정보 및 기울기 전파에 어떻게 영향을 미치는지 분석하고, Swish 및 관련 비-ReLU 활성화가 ReLU 유사 함수보다 정보 흐름을 개선한다는 점을 보인다.
The weight initialization and the activation function of deep neural networks have a crucial impact on the performance of the training procedure. An inappropriate selection can lead to the loss of information of the input during forward propagation and the exponential vanishing/exploding of gradients during back-propagation. Understanding the theoretical properties of untrained random networks is key to identifying which deep networks may be trained successfully as recently demonstrated by Schoenholz et al. (2017) who showed that for deep feedforward neural networks only a specific choice of hyperparameters known as the `edge of chaos' can lead to good performance. We complete this analysis by providing quantitative results showing that, for a class of ReLU-like activation functions, the information propagates indeed deeper for an initialization at the edge of chaos. By further extending this analysis, we identify a class of activation functions that improve the information propagation over ReLU-like functions. This class includes the Swish activation, $ϕ_{swish}(x) = x \cdot ext{sigmoid}(x)$, used in Hendrycks & Gimpel (2016), Elfwing et al. (2017) and Ramachandran et al. (2017). This provides a theoretical grounding for the excellent empirical performance of $ϕ_{swish}$ observed in these contributions. We complement those previous results by illustrating the benefit of using a random initialization on the edge of chaos in this context.
연구 동기 및 목표
- 무한 너비에서의 심층 신경망에서 순방향 정보 전파에 미치는 초기화의 영향 이해
- 혼돈의 경계와 그래디언트 흐름 및 정보 유지에 대한 영향 특성화
- ReLU 유사 함수 외에 정보 전파를 향상시키는 활성화 함수 식별
- 딥 아키텍처에서 Swish 및 다른 비-ReLU 활성화에 대한 이론적 근거 제시
제안 방법
- 가우시안 무작위 가중치와 바이어스를 사용한 심층 완전 연결 신경망 모델링
- 레이어 간 재귀 분산 및 공분산 커널을 도출하기 위해 가우시안 프로세스 근사 사용
- 주어진 활성화 함수에 대한 분산 및 상관관계의 수렴 영역 정의
- 고정점과 도함수를 통해 혼돈의 경계에서의 상관함수 f를 도출 및 분석
- 활성화 함수가 혼돈의 경계에서 정보 흐름을 유지하기 위한 충분 조건(Proposition 4) 제시
- Swish가 이 조건을 만족함을 보이고 ReLU 유사 활성화와의 비교
실험 결과
연구 질문
- RQ1혼돈의 경계에서 초기화가 심층 네트워크의 깊이에 따른 정보 전달에 어떤 영향을 미치는가?
- RQ2혼돈의 경계에서 정보 흐름과 그래디언트 안정성을 최적화하는 활성화 함수의 특성은 무엇인가?
- RQ3Swish 유사 활성화가 깊은 네트워크 전반에 걸쳐 ReLU보다 더 나은 정보 전달을 제공할 수 있는가?
- RQ4활성화 함수가 혼돈의 경계에서 거의 항등에 가까운 상관 역학을 보장하는 충분 조건은 무엇인가?
주요 결과
- 혼돈의 경계에서 ReLU 유사 활성화의 경우 상관관계가 1에 수렴하는 속도가 느려져 깊이가 다항식 규모로 커지며 지수적으로 증가하지 않는다.
- Proposition 4를 만족하는 활성화 함수의 한 계열은 Swish를 포함하여 정보 흐름을 향상시킨다.
- Swish 활성화는 제안된 조건을 만족하여 정보 전파 및 비-발산 그래디언트를 개선한다.
- Swish는 깊이에 따라 네트워크 출력의 변동성이 더 커질 수 있어 선행 함수의 더 풍부한 동작을 시사한다.
- ReLU를 넘어서서 Tanh 및 ELU 유사 함수와 같은 활성화 선택도 식별된 전파 조건을 만족시킬 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.