Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning using Rectified Linear Units (ReLU)

Abien Fred Agarap|arXiv (Cornell University)|2018. 03. 22.
Neural Networks and Applications참고 문헌 13인용 수 2,484
한 줄 요약

본 연구는 딥 뉴럴 네트워크의 분류 함수로 ReLU를 사용하는 것을 테스트하며, MNIST, Fashion-MNIST 및 WDBC 데이터셋에서 FFNN과 CNN 아키텍처를 사용하여 DL-ReLU와 DL-Softmax를 비교한다.

ABSTRACT

We introduce the use of rectified linear units (ReLU) as the classification function in a deep neural network (DNN). Conventionally, ReLU is used as an activation function in DNNs, with Softmax function as their classification function. However, there have been several studies on using a classification function other than Softmax, and this study is an addition to those. We accomplish this by taking the activation of the penultimate layer $h_{n - 1}$ in a neural network, then multiply it by weight parameters $θ$ to get the raw scores $o_{i}$. Afterwards, we threshold the raw scores $o_{i}$ by $0$, i.e. $f(o) = \max(0, o_{i})$, where $f(o)$ is the ReLU function. We provide class predictions $\hat{y}$ through argmax function, i.e. argmax $f(x)$.

연구 동기 및 목표

  • 소프트맥스를 최종 분류기로 교체하는 것을 연구 목표로 삼아 심층 네트워크에서 ReLU의 사용을 촉진한다.
  • 표준 벤치마크에서 DL-ReLU의 성능을 DL-Softmax와 비교평가한다.
  • 다양한 아키텍처와 데이터셋에서 학습 수렴, 정확도, 클래스별 지표를 분석한다.
  • ReLU 분류의 잠재적 단점(예: 죽은 ReLU)을 식별하고 향후 개선점을 제시한다.

제안 방법

  • Softmax와 ReLU를 마지막 층 분류기로 사용하는 두 가지 네트워크 유형(FFNN 및 CNN)을 활용한다.
  • 동일한 하이퍼파라미터를 사용하여 Adam 최적화기로 학습하여 공정한 비교를 가능하게 한다.
  • MNIST/Fashion-MNIST의 차원 축소를 위해 정규화 및 PCA로 데이터 전처리한다.
  • Softmax 교차 엔트로피 손실을 ReLU 기반의 교차 엔트로피 형식으로 대체하고 역전파를 일반적으로 수행한다.
  • 10-fold 교차 검증, 테스트 정확도, 정밀도, 재현율, F1-스코어 및 혼동 행렬로 평가한다.

실험 결과

연구 질문

  • RQ1Softmax를 분류 계층에서 ReLU로 교체하면 MNIST, Fashion-MNIST, WDBC에서 Softmax 기반 모델과 비교하여 정확도가 유의하게 같거나 더 나은가?
  • RQ2ReLU 기반 분류가 FFNN 및 CNN 아키텍처의 학습 수렴 및 학습 역학에 어떤 영향을 미치는가?
  • RQ3ReLU를 최종 분류기로 사용할 때 클래스별 성능 패턴(정밀도/재현율/F1)은 어떠한가?
  • RQ4죽은 ReLU 등과 같은 제한은 DL-ReLU 성능에 어떤 영향을 미치며 이를 어떻게 완화할 수 있는가?

주요 결과

ModelDatasetTraining Cross-ValidationTest AccuracyPrecisionRecallF1-Score
FFNN-SoftmaxMNIST99.29%97.98%0.980.980.98
FFNN-ReLUMNIST98.22%97.77%0.980.980.98
CNN-SoftmaxMNIST97.23%95.36%0.950.950.95
CNN-ReLUMNIST73.53%91.74%0.920.920.92
FFNN-SoftmaxFashion-MNIST98.87%89.35%0.890.890.89
FFNN-ReLUFashion-MNIST92.23%89.06%0.890.890.89
CNN-SoftmaxFashion-MNIST91.96%86.08%0.860.860.86
CNN-ReLUFashion-MNIST83.24%85.84%0.860.860.86
FFNN-SoftmaxWDBC91.21%92.40%0.920.920.92
FFNN-ReLUWDBC87.96%90.64%0.910.910.90
  • DL-ReLU는 종종 데이터셋과 아키텍처에 걸쳐 DL-Softmax와 비슷한 성능을 달성한다.
  • MNIST에서 FFNN-ReLU는 FFNN-Softmax에 거의 근접한 테스트 정확도(97.77% 대 97.98%)를 보인다.
  • MNIST에서 CNN-ReLU는 교차 검증 정확도에서 CNN-Softmax보다 느리게 수렴하고 뒤처지지만 테스트 정확도는 91.74%에 도달한다(73.53% 대 97.23%).
  • Fashion-MNIST에서 FFNN-ReLU는 FFNN-Softmax에 근접한 테스트 정확도(89.06% 대 89.35%)를 보인다.
  • Fashion-MNIST에서 CNN-ReLU는 교차 검증 정확도에서 CNN-Softmax보다 낮지만 테스트 정확도는 비슷하다(85.84% 대 86.08%).
  • WDBC에서 FFNN-ReLU는 교차 검증 및 테스트에서 FFNN-Softmax에 비해 낮은 성능을 보인다(테스트 정확도 90.64% 대 92.40%; F1 0.90 대 0.92).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.