QUICK REVIEW

[논문 리뷰] Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)

Brad Carlile, Guy Delamarter|arXiv (Cornell University)|2017. 10. 27.

Advanced Neural Network Applications참고 문헌 5인용 수 42

한 줄 요약

이 논문은 딥러닝에서 더 빠른 수렴과 더 나은 일반화를 가능하게 하는 새로운 활성화 함수인 Inverse Square Root Linear Unit(ISRLU)를 소개한다. ReLU와 ELU보다 성능이 뛰어나며, 특히 CPU 및 하드웨어 최적화된 추론 환경에서 컨volutional 신경망(CNNs)과 순환 신경망(RNNs)에서 유리하다. ISRLU는 계산 비용이 낮은 부드럽고 미분 가능한 음성 포화를 통해 이를 실현한다.

ABSTRACT

We introduce the "inverse square root linear unit" (ISRLU) to speed up learning in deep neural networks. ISRLU has better performance than ELU but has many of the same benefits. ISRLU and ELU have similar curves and characteristics. Both have negative values, allowing them to push mean unit activation closer to zero, and bring the normal gradient closer to the unit natural gradient, ensuring a noise-robust deactivation state, lessening the over fitting risk. The significant performance advantage of ISRLU on traditional CPUs also carry over to more efficient HW implementations on HW/SW codesign for CNNs/RNNs. In experiments with TensorFlow, ISRLU leads to faster learning and better generalization than ReLU on CNNs. This work also suggests a computationally efficient variant called the "inverse square root unit" (ISRU) which can be used for RNNs. Many RNNs use either long short-term memory (LSTM) and gated recurrent units (GRU) which are implemented with tanh and sigmoid activation functions. ISRU has less com- putational complexity but still has a similar curve to tanh and sigmoid.

연구 동기 및 목표

딥러닝에서 ReLU와 ELU의 한계를 해결하기 위해 향상된 학습 역학을 가진 새로운 활성화 함수를 도입하는 것.
특히 컨volution 연산이 점점 더 효율화됨에 따라 활성화 함수의 계산 오버헤드를 줄이는 것.
CNNs와 RNNs에서 ISRLU의 실현 가능성과 성능을 탐색하고, 하드웨어 최적화된 구현 방식을 포함한 분석을 수행하는 것.
부정적 활성화 값과 부드러운 기울기를 통해 편향 이동을 줄이고 일반화 성능을 향상시키는 ISRLU의 능력을 평가하는 것.

제안 방법

조각 함수 형태로 ISRLU를 제안: x ≥ 0일 경우 f(x) = x, x < 0일 경우 f(x) = x / √(1 + αx²)이며, α는 학습 가능한 초매개변수이다.
일阶 도함수를 유도: x ≥ 0일 경우 f’(x) = 1, x < 0일 경우 f’(x) = [1 / √(1 + αx²)]³으로, 부드러운 기울기를 보장한다.
RNNs를 위한 변형인 ISRU를 도입: f(x) = x / √(1 + αx²)로 정의되며, 양의 입력에 대해 항등함수를 갖지 않는 유사한 함수 형태를 가진다.
실험에서 표준 학습 프rotocol을 적용: ADAM 최적화기 사용, 가중치 초기화는 절삭 정규분포를 활용하고 배치 정규화를 적용한다.
MNIST 데이터셋에서 여러 CNN 및 RNN 아키텍처를 대상으로 ISRLU의 성능을 ReLU, ELU, ISRU와 비교한다.
Intel Xeon Platinum 8160에서 출력 요소당 사이클 수를 측정하여 계산 효율성을 평가하고, ISRLU가 ELU보다 활성화 비용에서 유리함을 입증한다.

실험 결과

연구 질문

RQ1ISRLU는 깊이 있는 CNN에서 ReLU와 ELU보다 학습 속도와 일반화 성능에서 뛰어나게 작용할 수 있는가?
RQ2ELU보다 계산 복잡도가 낮은 ISRLU의 특성이 CPU 및 하드웨어 최적화 환경에서 측정 가능한 성능 향상으로 이어지는가?
RQ3ISRLU는 ELU와 유사하게 부정적 활성화 값과 부드러운 기울기를 통해 편향 이동을 효과적으로 줄이고 평균 활성화 중심을 0에 가깝게 만들 수 있는가?
RQ4ISRLU의 계산 효율성 고려 시, ISRU는 LSTM 및 GRU와 같은 RNN에서 tanh와 sigmoid의 대체로 적합한가?
RQ5ISRLU의 학습 가능한 초매개변수 α가 다양한 네트워크 깊이와 아키텍처에서 모델 성능과 수렴에 어떤 영향을 미치는가?

주요 결과

MNIST에서 α=1.0과 α=3.0을 사용한 ISRLU는 각각 99.30%와 99.32%의 테스트 정확도를 기록하여, 유사 조건에서 ReLU(99.17%)와 ELU(99.09%)를 모두 초월했다.
ISRLU 네트워크는 ReLU(2.644)와 ELU(2.395)보다 낮은 교차 엔트로피 손실(α=3.0일 경우 2.308)을 기록하여 더 나은 일반화 성능을 보였다.
ISRLU의 학습 오차는 ReLU와 ELU보다 더 빠르게 감소하여 최적화 과정에서 더 빠른 수렴을 보였다.
ISRU 기반 RNN에서는 tanh보다 3배에서 6배 빠르게 동작했으며, x86 아키텍처에 따라 sigmoid와 유사하거나 더 우수한 성능을 기록했다.
ISRLU의 계산 비용은 ELU보다 현저히 낮았으며, 3x1 및 1x3 Inception 스타일 필터에서 출력 요소당 사이클 수가 약 0.51로 감소했다.
ISRLU의 부드럽고 연속적인 도함수와 음성 포화 행동은 편향 이동을 줄이고 기울기 흐름을 향상시켜 더 빠른 학습에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.