QUICK REVIEW

[논문 리뷰] Empirical Evaluation of Rectified Activations in Convolutional Network

Bing Xu, Naiyan Wang|arXiv (Cornell University)|2015. 05. 05.

Advanced Neural Network Applications참고 문헌 10인용 수 2,287

한 줄 요약

이 논문은 CNN에서 ReLU, Leaky ReLU, PReLU, RReLU를 CIFAR-10/100 및 NDSB에서 비교하고, 소규모 데이터셋에서 Leaky 변종이 종종 ReLU보다 우수한 성능을 보이며, RReLU가 과적합을 줄이는 데 도움이 된다고 보고합니다. Inception 네트의 부분집합에서 앙상블 없이 CIFAR-100 정확도 75.68%를 RReLU로 보고합니다.

ABSTRACT

In this paper we investigate the performance of different types of rectified activation functions in convolutional neural network: standard rectified linear unit (ReLU), leaky rectified linear unit (Leaky ReLU), parametric rectified linear unit (PReLU) and a new randomized leaky rectified linear units (RReLU). We evaluate these activation function on standard image classification task. Our experiments suggest that incorporating a non-zero slope for negative part in rectified activation units could consistently improve the results. Thus our findings are negative on the common belief that sparsity is the key of good performance in ReLU. Moreover, on small scale dataset, using deterministic negative slope or learning it are both prone to overfitting. They are not as effective as using their randomized counterpart. By using RReLU, we achieved 75.68\% accuracy on CIFAR-100 test set without multiple test or ensemble.

연구 동기 및 목표

음이 아닌 음의 기울기가 ReLU를 넘어서 CNN 성능을 향상시키는지 평가한다.
표준 이미지 분류 작업에서 네 가지 rectified activation function(ReLU, Leaky ReLU, PReLU, RReLU)을 비교한다.
작은 데이터셋과 큰 데이터셋에서 서로 다른 활성화 함수의 과적합 경향을 조사한다.
소규모 데이터셋에 대한 활성화 선택에 대한 가이드와 무작위화된 방법의 잠재적 이점을 제공한다.

제안 방법

ReLU, 고정 기울기 a_i를 갖는 Leaky ReLU, 학습된 음의 기울기 a_i를 갖는 PReLU, 학습 중에 임의의 a_ji를 가지며 테스트 시 고정되는 RReLU의 네 가지 rectified 활성화를 정의하고 구현한다.
두 가지 CNN 아키텍처를 사용하고 CIFAR-10, CIFAR-100, NDSB 데이터셋에서 동일한 하이퍼파라미터로 통제된 비교를 수행한다.
각 활성화에 대해 학습 성능과 검증 성능 및 수렴 동향을 평가한다.
RReLU의 경우 설명된 구성에 따라 학습 중 a_ji를 Uniform(l,u)에서 샘플링하고 테스트 시 (l+u)/2를 사용한다.
앙상블 방법이나 다중 시각 테스트 없이 결과를 보고한다.

실험 결과

연구 질문

RQ1음수 입력에 대해 0이 아닌 기울기를 도입하면 표준 ReLU에 비해 CNN 성능이 향상되는가?
RQ2작은 데이터셋과 큰 데이터셋에서 Leaky ReLU 변형들(포함 PReLU 및 RReLU)은 어떻게 성능을 보이는가?
RQ3무작위 음의 기울기(RReLU)가 작은 데이터셋의 과적합을 완화하는 데 도움이 되는가?
RQ4CIFAR-10, CIFAR-100, NDSB 각각에 대해 각 활성화에 대한 훈련 오차/손실 및 검정 오차/손실의 비교 트렌드는 무엇인가?

주요 결과

Leaky ReLU with a=5.5는 CIFAR-10/100 및 NDSB 테스트 세트에서 지속적으로 ReLU를 능가한다.
PReLU는 가장 낮은 훈련 오차를 달성하지만 작은 데이터셋에서 과적합이 더 크며 일부 leaky 변형보다 테스트 오차가 더 높다.
RReLU는 경쟁력 있는 테스트 오차를 보이고 그 무작위성이 과적합을 줄이는 데 도움이 되며 특히 작은 데이터셋에서 그렇다.
CIFAR-100에서 RReLU는 여러 대안보다 낮은 테스트 로스를 달성하여 과적합에 대한 강건함을 나타낸다.
전반적으로 Leaky 변형이 작은 데이터셋에서 ReLU보다 성능이 우수하며 대규모 데이터에 대한 결과는 추가 연구가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.