QUICK REVIEW

[논문 리뷰] Comparison of non-linear activation functions for deep neural networks on MNIST classification task

Dabal Pedamonti|arXiv (Cornell University)|2018. 04. 08.

Neural Networks and Applications참고 문헌 2인용 수 120

한 줄 요약

본 논문은 Leaky ReLU, ELU, SELU를 ReLU 및 시그모이드와 비교하고 MNIST에서 실험하며 최대 8개의 은닉층까지 네트워크 깊이를 분석하고 다양한 가중치 초기화 방식과 학습률을 평가하여 성능 및 일반화 성능을 평가한다.

ABSTRACT

Activation functions play a key role in neural networks so it becomes fundamental to understand their advantages and disadvantages in order to achieve better performances. This paper will first introduce common types of non linear activation functions that are alternative to the well known sigmoid function and then evaluate their characteristics. Moreover deeper neural networks will be analysed because they positively influence the final performances compared to shallower networks. They also strictly depend on the weight initialisation hence the effect of drawing weights from Gaussian and uniform distribution will be analysed making particular attention on how the number of incoming and outgoing connection to a node influence the whole network.

연구 동기 및 목표

다양한 비선형 활성화 함수(Leaky ReLU, ELU, SELU)가 MNIST 분류에서 시그모이드 및 ReLU 기준선에 비해 어떻게 수행하는지 평가하고 비교한다.
다양한 가중치 초기화 스킴에서 네트워크 깊이(최대 8개의 은닉층)가 정확도와 손실에 미치는 영향을 조사한다.
초기화 전략(Glorot 균일/가우시안, fan_in, fan_out)과 학습률이 학습 역학 및 일반화에 어떤 영향을 미치는지 평가한다.

제안 방법

활성화 함수(ReLU 변형)와 그 기울기(gradient)를 설명하고 분석한다.
활성화를 비교하기 위해 은닉층 2개(각각 100 단위)로 MNIST 실험을 수행한다.
학습률을 0.01, 0.05, 0.1, 0.2로 변화시키고 학습/검증 세트의 손실 및 정확도를 관찰한다.
다른 가중치 초기화(Uniform, fan_in, fan_out, Gaussian)를 사용하여 ELU를 포함한 더 깊은 네트워크를 평가한다(또는 SELU와의 비교)
깊이가 최대 8개의 은닉층으로 증가할 때의 검증 정확도와 손실을 기록한다.
초기화 방법(Glorot 균일, fan_in, fan_out, Gaussian)을 비교하고 정확도와 손실에 미치는 영향을 보고한다.

실험 결과

연구 질문

RQ1어떤 활성화 함수들(Leaky ReLU, ELU, SELU)이 시그모이드 및 ReLU 기준선과 비교할 때 MNIST에서 가장 높은 정확도와 가장 낮은 손실을 나타내는가?
RQ2다양한 가중치 초기화 스킴에서 ELU 및 SELU 활성화에 대해 네트워크 깊이가 증가함에 따라 MNIST 성능은 어떻게 변하는가?
RQ3ELU/SELU 네트워크에 대한 가중치 초기화(Glorot 균일/가우시안, fan_in, fan_out)가 학습 역학 및 최종 정확도에 미치는 영향은 무엇인가?
RQ4학습률 선택(예: 0.05 대 0.1)이 이러한 활성화의 검증 성능 및 과적합에 어떤 영향을 미치는가?

주요 결과

ELU는 테스트 실행에서 Leaky ReLU 및 ReLU보다 손실 및 정확도가 일반적으로 더 우수하다.
ELU가 다수의 실험에서 SELU보다 우수한 경향이 있지만, 특정 학습률(예: 0.05)에서는 SELU가 가끔 ELU에 필적할 수 있다.
ReLU 및 그 변형은 MNIST 작업에서 시그모이드보다 일관되게 우수한 성능을 보인다.
ELU를 사용하는 더 깊은 네트워크는 7개의 은닉층에서 Glorot 균일 초기화 시 검증 정확도 최대 0.983까지 도달할 수 있다.
가중치 초기화는 최종 정확도와 손실에 크게 영향을 미치며, Glorot 균일이 평균 정확도에서 종종 더 좋으며 깊이가 늘어나면 성능이 향상되지만 학습 시간도 증가한다.
가우시안 가중치 초기화는 일반적으로 SELU 시나리오에서 균일 초기화보다 더 안정적인 검증 손실과 더 높은 정확도를 제공한다.
깊이가 증가함에 따라 정확도는 향상하는 경향이 있으며 학습 시간은 증가하므로 성능과 계산 간의 균형이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.