QUICK REVIEW

[논문 리뷰] On the Impact of the Activation Function on Deep Neural Networks Training

Soufiane Hayou, Randal Douc|arXiv (Cornell University)|2019. 02. 19.

Neural Networks and Applications인용 수 68

한 줄 요약

논문은 활성화 함수 선택과 가중치 초기화, 특히 Edge of Chaos(EOC)에서의 초기화가 신호 전파와 깊은 네트워크의 학습 속도에 어떤 영향을 주는지 분석하고, 매끄러운 활성화와 EOC-조정 매개변수가 학습 속도를 가속시킨다는 것을 보여준다.

ABSTRACT

The weight initialization and the activation function of deep neural networks have a crucial impact on the performance of the training procedure. An inappropriate selection can lead to the loss of information of the input during forward propagation and the exponential vanishing/exploding of gradients during back-propagation. Understanding the theoretical properties of untrained random networks is key to identifying which deep networks may be trained successfully as recently demonstrated by Samuel et al (2017) who showed that for deep feedforward neural networks only a specific choice of hyperparameters known as the `Edge of Chaos' can lead to good performance. While the work by Samuel et al (2017) discuss trainability issues, we focus here on training acceleration and overall performance. We give a comprehensive theoretical analysis of the Edge of Chaos and show that we can indeed tune the initialization parameters and the activation function in order to accelerate the training and improve the performance.

연구 동기 및 목표

활성화 함수와 초기화가 심층 네트워크의 정_forward 신호 전파에 미치는 영향을 평가한다.
다양한 활성화에 대한 Edge of Chaos(EOC)를 특징화하고 이는 학습 역학에 미치는 영향을 분석한다.
학습 속도를 가속하기 위해 최적의 EOC 지점을 찾아 활용하는 절차를 제안한다.
심층 영역에서 ReLU와 유사한 함수보다 매끄러운 활성화가 더 나은 성능을 보임을 이론 및 실험으로 입증한다.
초기화 및 활성화 선택을 위한 실용적 가이드라인을 제공하여 학습 효율을 향상시킨다.

제안 방법

무한 폭/유한 분산 체계에서 가우시안 프로세스로 신경망 모델을 설정하고 커널/분산 재귀를 도출한다.
활성화 의존적 변환을 통해 층별 재귀로 분산 함수 F와 상관 함수 c를 정의하고 분석한다.
chi1 = sigma_w^2 E[phi'(sqrt(q)Z)^2] = 1인 조건으로 EOC를 특징화하고 정보 전달에 대한 함의를 연구한다.
ReLU 유사 및 매끄러운 활성화 함수에 대한 해석적 결과를 개발하고, EOC에서의 상관의 수렴 속도(O(1/l^2) 대 O(1/l))를 자세히 기술한다.
클래스 A의 매끄러운 활성화가 상관의 소멸을 더 느리게 하고( O(1/l) ), 그래디언트 전파를 개선하며 ReLU의 경우 EOC에서 잔여상태와 같은 거동을 보임을 보인다.
주어진 phi에 대한 EOC 곡선을 계산하는 알고리즘(Algorithm 1)을 제공하고, 깊이에 맞춰 beta_q를 정렬하는 등 EOC 기반의 실용적 초기화 규칙을 도출한다.
MNIST와 CIFAR-10에서 활성화 함수(ReLU, ELU, Tanh) 간의 EOC, EOC+BN, 정렬-상(ordered-phase) 초기화를 비교하는 실험을 수행한다.

실험 결과

연구 질문

RQ1무작위 초기화 하에서 활성화 함수의 형태(ReLU 유사 대 매끄러운)가 심층 네트워크의 순방향 신호 전파 및 그래디언트 흐름에 어떤 영향을 미치는가?
RQ2다양한 활성화 함수에 대한 Chaos의 가장자리(EOC)가 무엇이며 이를 계산하고 학습 가속에 어떻게 활용할 수 있는가?
RQ3매끄러운 활성화가 ReLU 유사 활성화보다 더 깊은 신호 전파를 가능하게 하는가, 층을 통한 상관의 수렴 속도는 무엇인가?
RQ4학습 깊이와 속도를 최적화하기 위해 EOC에서 초기화 매개변수(sigma_b, sigma_w)를 선택하는 실용적 가이드라인을 도출할 수 있는가?
RQ5EOC 초기화와 비교하여 Ordered-Phase 초기화나 BatchNorm으로 얻어지는 학습 속도 및 정확도 향상에 대한 경험적 이점은 무엇인가?

주요 결과

Activation	MNIST EOC (Test Accuracy %)	MNIST EOC+BN (Test Accuracy %)	MNIST Ord Phase (Test Accuracy %)	CIFAR10 EOC (Test Accuracy %)	CIFAR10 EOC+BN (Test Accuracy %)	CIFAR10 Ord Phase (Test Accuracy %)
ReLU	93.57 ± 0.18	93.11 ± 0.21	10.09 ± 0.61	36.55 ± 1.15	35.91 ± 1.52	9.91 ± 0.93
ELU	97.62 ± 0.21	93.41 ± 0.30	10.14 ± 0.51	45.76 ± 0.91	44.12 ± 0.93	10.11 ± 0.65
Tanh	97.20 ± 0.30	10.74 ± 0.10	10.02 ± 0.13	44.11 ± 1.02	10.15 ± 0.85	9.82 ± 0.88

EOC에서의 초기화는 여러 활성화에서 정보 전파를 향상시키고 학습 속도를 가속시킨다.
EOC에서의 ReLU 유사 활성화는 상관 전파에서 잔여상태와 상관이 1에 수렴하는 속도가 순차적 위상에서의 지수적 감소가 아닌(0(l^2) 감소) 느린 다항 감소를 보인다.
매끄러운 활성화 함수(Tanh, ELU, SiLU 등)는 EOC에서 상관의 수렴 속도를 O(1/l)로 더 깊은 신호 전파를 지원하며 딥한 설정에서 ReLU를 능가한다.
매끄러운 활성화에 대한 EOC는 (sigma_b, sigma_w) 평면에서 곡선을 형성하는 반면 ReLU는 단일 점으로 수렴하므로 최적의 EOC 지점을 알고리즘적으로 계산할 수 있다(Algorithm 1).
깊이에 따른 깊이 스케일 beta_q를 네트워크 깊이 L에 대략 맞추도록 sigma_b를 선택하면 전방 전파와 그래디언트 안정성의 균형을 이루어 학습 성능이 향상된다.
MNIST와 CIFAR-10에 대한 실험에서 배치노름 없이 EOC 초기화가 가장 좋은 테스트 정확도를 100 에폭에서 종종 달성하며, 깊이 200, 폭 300에서 매끄러운 활성화가 ReLU를 능가하는 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.