QUICK REVIEW

[논문 리뷰] Deep Learning using Rectified Linear Units (ReLU)

Abien Fred Agarap|arXiv (Cornell University)|2018. 03. 22.

Neural Networks and Applications참고 문헌 13인용 수 2,484

한 줄 요약

본 연구는 딥 뉴럴 네트워크의 분류 함수로 ReLU를 사용하는 것을 테스트하며, MNIST, Fashion-MNIST 및 WDBC 데이터셋에서 FFNN과 CNN 아키텍처를 사용하여 DL-ReLU와 DL-Softmax를 비교한다.

ABSTRACT

We introduce the use of rectified linear units (ReLU) as the classification function in a deep neural network (DNN). Conventionally, ReLU is used as an activation function in DNNs, with Softmax function as their classification function. However, there have been several studies on using a classification function other than Softmax, and this study is an addition to those. We accomplish this by taking the activation of the penultimate layer $h_{n - 1}$ in a neural network, then multiply it by weight parameters $θ$ to get the raw scores $o_{i}$. Afterwards, we threshold the raw scores $o_{i}$ by $0$, i.e. $f(o) = \max(0, o_{i})$, where $f(o)$ is the ReLU function. We provide class predictions $\hat{y}$ through argmax function, i.e. argmax $f(x)$.

연구 동기 및 목표

소프트맥스를 최종 분류기로 교체하는 것을 연구 목표로 삼아 심층 네트워크에서 ReLU의 사용을 촉진한다.
표준 벤치마크에서 DL-ReLU의 성능을 DL-Softmax와 비교평가한다.
다양한 아키텍처와 데이터셋에서 학습 수렴, 정확도, 클래스별 지표를 분석한다.
ReLU 분류의 잠재적 단점(예: 죽은 ReLU)을 식별하고 향후 개선점을 제시한다.

제안 방법

Softmax와 ReLU를 마지막 층 분류기로 사용하는 두 가지 네트워크 유형(FFNN 및 CNN)을 활용한다.
동일한 하이퍼파라미터를 사용하여 Adam 최적화기로 학습하여 공정한 비교를 가능하게 한다.
MNIST/Fashion-MNIST의 차원 축소를 위해 정규화 및 PCA로 데이터 전처리한다.
Softmax 교차 엔트로피 손실을 ReLU 기반의 교차 엔트로피 형식으로 대체하고 역전파를 일반적으로 수행한다.
10-fold 교차 검증, 테스트 정확도, 정밀도, 재현율, F1-스코어 및 혼동 행렬로 평가한다.

실험 결과

연구 질문

RQ1Softmax를 분류 계층에서 ReLU로 교체하면 MNIST, Fashion-MNIST, WDBC에서 Softmax 기반 모델과 비교하여 정확도가 유의하게 같거나 더 나은가?
RQ2ReLU 기반 분류가 FFNN 및 CNN 아키텍처의 학습 수렴 및 학습 역학에 어떤 영향을 미치는가?
RQ3ReLU를 최종 분류기로 사용할 때 클래스별 성능 패턴(정밀도/재현율/F1)은 어떠한가?
RQ4죽은 ReLU 등과 같은 제한은 DL-ReLU 성능에 어떤 영향을 미치며 이를 어떻게 완화할 수 있는가?

주요 결과

Model	Dataset	Training Cross-Validation	Test Accuracy	Precision	Recall	F1-Score
FFNN-Softmax	MNIST	99.29%	97.98%	0.98	0.98	0.98
FFNN-ReLU	MNIST	98.22%	97.77%	0.98	0.98	0.98
CNN-Softmax	MNIST	97.23%	95.36%	0.95	0.95	0.95
CNN-ReLU	MNIST	73.53%	91.74%	0.92	0.92	0.92
FFNN-Softmax	Fashion-MNIST	98.87%	89.35%	0.89	0.89	0.89
FFNN-ReLU	Fashion-MNIST	92.23%	89.06%	0.89	0.89	0.89
CNN-Softmax	Fashion-MNIST	91.96%	86.08%	0.86	0.86	0.86
CNN-ReLU	Fashion-MNIST	83.24%	85.84%	0.86	0.86	0.86
FFNN-Softmax	WDBC	91.21%	92.40%	0.92	0.92	0.92
FFNN-ReLU	WDBC	87.96%	90.64%	0.91	0.91	0.90

DL-ReLU는 종종 데이터셋과 아키텍처에 걸쳐 DL-Softmax와 비슷한 성능을 달성한다.
MNIST에서 FFNN-ReLU는 FFNN-Softmax에 거의 근접한 테스트 정확도(97.77% 대 97.98%)를 보인다.
MNIST에서 CNN-ReLU는 교차 검증 정확도에서 CNN-Softmax보다 느리게 수렴하고 뒤처지지만 테스트 정확도는 91.74%에 도달한다(73.53% 대 97.23%).
Fashion-MNIST에서 FFNN-ReLU는 FFNN-Softmax에 근접한 테스트 정확도(89.06% 대 89.35%)를 보인다.
Fashion-MNIST에서 CNN-ReLU는 교차 검증 정확도에서 CNN-Softmax보다 낮지만 테스트 정확도는 비슷하다(85.84% 대 86.08%).
WDBC에서 FFNN-ReLU는 교차 검증 및 테스트에서 FFNN-Softmax에 비해 낮은 성능을 보인다(테스트 정확도 90.64% 대 92.40%; F1 0.90 대 0.92).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.