[논문 리뷰] Deep Learning using Rectified Linear Units (ReLU)
본 연구는 딥 뉴럴 네트워크의 분류 함수로 ReLU를 사용하는 것을 테스트하며, MNIST, Fashion-MNIST 및 WDBC 데이터셋에서 FFNN과 CNN 아키텍처를 사용하여 DL-ReLU와 DL-Softmax를 비교한다.
We introduce the use of rectified linear units (ReLU) as the classification function in a deep neural network (DNN). Conventionally, ReLU is used as an activation function in DNNs, with Softmax function as their classification function. However, there have been several studies on using a classification function other than Softmax, and this study is an addition to those. We accomplish this by taking the activation of the penultimate layer $h_{n - 1}$ in a neural network, then multiply it by weight parameters $θ$ to get the raw scores $o_{i}$. Afterwards, we threshold the raw scores $o_{i}$ by $0$, i.e. $f(o) = \max(0, o_{i})$, where $f(o)$ is the ReLU function. We provide class predictions $\hat{y}$ through argmax function, i.e. argmax $f(x)$.
연구 동기 및 목표
- 소프트맥스를 최종 분류기로 교체하는 것을 연구 목표로 삼아 심층 네트워크에서 ReLU의 사용을 촉진한다.
- 표준 벤치마크에서 DL-ReLU의 성능을 DL-Softmax와 비교평가한다.
- 다양한 아키텍처와 데이터셋에서 학습 수렴, 정확도, 클래스별 지표를 분석한다.
- ReLU 분류의 잠재적 단점(예: 죽은 ReLU)을 식별하고 향후 개선점을 제시한다.
제안 방법
- Softmax와 ReLU를 마지막 층 분류기로 사용하는 두 가지 네트워크 유형(FFNN 및 CNN)을 활용한다.
- 동일한 하이퍼파라미터를 사용하여 Adam 최적화기로 학습하여 공정한 비교를 가능하게 한다.
- MNIST/Fashion-MNIST의 차원 축소를 위해 정규화 및 PCA로 데이터 전처리한다.
- Softmax 교차 엔트로피 손실을 ReLU 기반의 교차 엔트로피 형식으로 대체하고 역전파를 일반적으로 수행한다.
- 10-fold 교차 검증, 테스트 정확도, 정밀도, 재현율, F1-스코어 및 혼동 행렬로 평가한다.
실험 결과
연구 질문
- RQ1Softmax를 분류 계층에서 ReLU로 교체하면 MNIST, Fashion-MNIST, WDBC에서 Softmax 기반 모델과 비교하여 정확도가 유의하게 같거나 더 나은가?
- RQ2ReLU 기반 분류가 FFNN 및 CNN 아키텍처의 학습 수렴 및 학습 역학에 어떤 영향을 미치는가?
- RQ3ReLU를 최종 분류기로 사용할 때 클래스별 성능 패턴(정밀도/재현율/F1)은 어떠한가?
- RQ4죽은 ReLU 등과 같은 제한은 DL-ReLU 성능에 어떤 영향을 미치며 이를 어떻게 완화할 수 있는가?
주요 결과
| Model | Dataset | Training Cross-Validation | Test Accuracy | Precision | Recall | F1-Score |
|---|---|---|---|---|---|---|
| FFNN-Softmax | MNIST | 99.29% | 97.98% | 0.98 | 0.98 | 0.98 |
| FFNN-ReLU | MNIST | 98.22% | 97.77% | 0.98 | 0.98 | 0.98 |
| CNN-Softmax | MNIST | 97.23% | 95.36% | 0.95 | 0.95 | 0.95 |
| CNN-ReLU | MNIST | 73.53% | 91.74% | 0.92 | 0.92 | 0.92 |
| FFNN-Softmax | Fashion-MNIST | 98.87% | 89.35% | 0.89 | 0.89 | 0.89 |
| FFNN-ReLU | Fashion-MNIST | 92.23% | 89.06% | 0.89 | 0.89 | 0.89 |
| CNN-Softmax | Fashion-MNIST | 91.96% | 86.08% | 0.86 | 0.86 | 0.86 |
| CNN-ReLU | Fashion-MNIST | 83.24% | 85.84% | 0.86 | 0.86 | 0.86 |
| FFNN-Softmax | WDBC | 91.21% | 92.40% | 0.92 | 0.92 | 0.92 |
| FFNN-ReLU | WDBC | 87.96% | 90.64% | 0.91 | 0.91 | 0.90 |
- DL-ReLU는 종종 데이터셋과 아키텍처에 걸쳐 DL-Softmax와 비슷한 성능을 달성한다.
- MNIST에서 FFNN-ReLU는 FFNN-Softmax에 거의 근접한 테스트 정확도(97.77% 대 97.98%)를 보인다.
- MNIST에서 CNN-ReLU는 교차 검증 정확도에서 CNN-Softmax보다 느리게 수렴하고 뒤처지지만 테스트 정확도는 91.74%에 도달한다(73.53% 대 97.23%).
- Fashion-MNIST에서 FFNN-ReLU는 FFNN-Softmax에 근접한 테스트 정확도(89.06% 대 89.35%)를 보인다.
- Fashion-MNIST에서 CNN-ReLU는 교차 검증 정확도에서 CNN-Softmax보다 낮지만 테스트 정확도는 비슷하다(85.84% 대 86.08%).
- WDBC에서 FFNN-ReLU는 교차 검증 및 테스트에서 FFNN-Softmax에 비해 낮은 성능을 보인다(테스트 정확도 90.64% 대 92.40%; F1 0.90 대 0.92).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.