Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey on Activation Functions and their relation with Xavier and He Normal Initialization

Leonid Datta|arXiv (Cornell University)|2020. 03. 18.
Neural Networks and Applications인용 수 50
한 줄 요약

활성화 함수의 특성과 주요 활성화 함수(sigmoid, tanh, ReLU, Leaky ReLU, PReLU)의 문제점, 그리고 Xavier 및 He 정규화 초기화가 이들에 어떻게 연관되는지에 대한 종합 고찰.

ABSTRACT

In artificial neural network, the activation function and the weight initialization method play important roles in training and performance of a neural network. The question arises is what properties of a function are important/necessary for being a well-performing activation function. Also, the most widely used weight initialization methods - Xavier and He normal initialization have fundamental connection with activation function. This survey discusses the important/necessary properties of activation function and the most widely used activation functions (sigmoid, tanh, ReLU, LReLU and PReLU). This survey also explores the relationship between these activation functions and the two weight initialization methods - Xavier and He normal initialization.

연구 동기 및 목표

  • 뉴럴 네트워크에서 활성화 함수가 효과적으로 작동하게 만드는 핵심 특성을 식별한다.
  • 널리 사용되는 활성화 함수와 그 강점/제약점을 검토한다.
  • Xavier 및 He 정규화 초기화가 활성화 함수와 어떤 관련이 있는지 설명한다.
  • 소실 기울기와 무활성 뉴런 문제와 활성화 함수 간의 관계를 강조한다.

제안 방법

  • 본 연구는 활성화 함수의 특성과 그들이 직면한 문제들(소실 기울기, 무활성 뉴런)을 고찰한다.
  • sigmoid, tanh, ReLU, Leaky ReLU, PReLU를 검토하고 그 특성과 단점을 자세히 설명한다.
  • 무게 초기화 방법(Xavier 및 He normal)과 깊은 신경망 학습에 대한 영향을 분석한다.
  • 활성화 특성이 초기화와 상호작용하여 학습 역학에 어떤 영향을 미치는지 논의한다.

실험 결과

연구 질문

  • RQ1활성화 함수가 뉴럴 네트워크에서 잘 작동하기 위해 필수적인 특성은 무엇인가?
  • RQ2일반적인 활성화 함수(sigmoid, tanh, ReLU, Leaky ReLU, PReLU)는 소실 기울기 및 무활성 뉴런 이슈 측면에서 어떻게 비교되는가?
  • RQ3Xavier 및 He normal 초기화가 이들 활성화 함수의 효과성에 어떻게 연관되고 영향을 미치는가?
  • RQ4Xavier로 tanh 또는 He 초기화로 ReLU를 사용할 때 어떤 상황에서 권장되는가?

주요 결과

  • 활성화 함수는 비선형이어야 하고 미분 가능하며 연속적이어야 하며 학습 촉진을 위해 제로 중심일수록 바람직하다.
  • Sigmoid와 tanh는 소실 기울기 문제를 겪으며, ReLU 변형은 이를 완화하지만 무활성 뉴런을 초래할 수 있다; PReLU/Leaky ReLU는 중간 정도의 동작을 제공한다.
  • ReLU와 He normal 초기화는 특히 심층 네트워크에서 더 빠르고 나은 학습을 자주 낳으며, Xavier 초기화는 얕거나 선형-성능 가정에 더 적합하다.
  • Tanh와 Xavier 초기화는 비깊은 네트워크에서 작동할 수 있지만, 심층 아키텍처에서는 정류계 비선형성(rectifier)과 He 초기화가 선호된다.
  • 본 고찰은 활성화 함수의 특성과 초기화 선택 간의 연결을 통해 학습 역학과 성능을 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.