Skip to main content
QUICK REVIEW

[논문 리뷰] Revise Saturated Activation Functions

Bing Xu, Ruitong Huang|arXiv (Cornell University)|2016. 02. 18.
Model Reduction and Neural Networks참고 문헌 8인용 수 45
한 줄 요약

이 논문은 딥 네트워크에서 학습 안정성을 향상시키기 위해 스케일된 로지스틱 시그모이드와 페널라이즈드 탄젠트 활성화 함수를 제안한다. 표준 시그모이드를 영점 근처에서 평균이 0이고 기울기가 더 급격하도록 스케일링하고, 탄젠트의 음수 영역을 페널티 처리함으로써, ReLU나 리키 리elu와 유사한 성능을 달성하며, 포화가 고갈 기울기를 유발한다는 전제를 도전한다.

ABSTRACT

In this paper, we revise two commonly used saturated functions, the logistic sigmoid and the hyperbolic tangent (tanh). We point out that, besides the well-known non-zero centered property, slope of the activation function near the origin is another possible reason making training deep networks with the logistic function difficult to train. We demonstrate that, with proper rescaling, the logistic sigmoid achieves comparable results with tanh. Then following the same argument, we improve tahn by penalizing in the negative part. We show that "penalized tanh" is comparable and even outperforms the state-of-the-art non-saturated functions including ReLU and leaky ReLU on deep convolution neural networks. Our results contradict to the conclusion of previous works that the saturation property causes the slow convergence. It suggests further investigation is necessary to better understand activation functions in deep architectures.

연구 동기 및 목표

  • 로지스틱 시그모이드를 사용한 딥 네트워크 학습의 어려움을 해결하기 위해, 비영점 중심화 외의 간과된 원인을 규명하는 것.
  • 두 활성화 함수 모두 포화되지만 탄젠트가 시그모이드보다 성능이 뛰어나기 때문에, 원점 근처에서 기울기 행동에 초점을 맞추는 것.
  • 학습 안정성과 비포화 ReLU 변형과 유사한 성능을 유지하는 개선된 포화 활성화 함수를 제안하는 것.
  • 포화가 딥 네트워크에서 고갈 기울기를 유발한다는 일반적인 믿음을 도전하는 것.

제안 방법

  • 스케일된 시그모이드 함수 제안: f(x) = 4 * sigmoid(4x) - 2. 이는 표준 시그모이드를 평균이 0이고 초기 기울기가 더 급격하도록 스케일링한다.
  • 엑스비어 초기화 원칙을 기반으로 깊은 네트워크에서 분산 유지에 필요한 이론적 조건을 유도하며, 영점 근처에서의 기울기와 오프셋이 핵심 요소임을 규명한다.
  • 페널라이즈드 탄젠트 함수 도입: x > 0일 땐 f(x) = tanh(x), x ≤ 0일 땐 f(x) = a * tanh(x), 여기서 a ∈ (0,1). 이는 음수 활성화 영역을 페널티 처리한다.
  • 모든 실험에서 동일한 초기화(엑스비어)와 학습 설정(MXNet)을 사용하여 공정한 비교를 확보한다.
  • 배치 정규화 없이 CIFAR-100에 대해 33층의 인셉션 네트워크를 학습시켜 일반화 능력과 수렴 속도를 평가한다.
  • 여러 런에 걸쳐 학습/테스트 정확도와 수렴 속도를 기반으로 활성화 함수를 비교한다.

실험 결과

연구 질문

  • RQ1표준 로지스틱 시그모이드는 포화 특성은 탄젠트와 유사함에도 불구하고, 왜 깊은 네트워크 학습에 효과적으로 실패하는가?
  • RQ2활성화 함수가 영점 근처에서 기울기와 오프셋이 기울기 흐름과 학습 안정성에 어떤 역할을 하는가?
  • RQ3페널라이즈드 음수 영역을 가진 포화 활성화 함수가 비포화 ReLU 변형보다 뛰어나게 성능을 낼 수 있는가?
  • RQ4특히 f(0)와 f’(0)에 의해 결정되는 활성화 함수의 영점 근처 형태가 포화 특성보다 네트워크 성능에 더 큰 영향을 미치는가?

주요 결과

  • 스케일된 시그모이드(4 * sigmoid(4x) - 2)는 CIFAR-100에서 89.39% 학습 정확도와 59.11% 테스트 정확도를 달성하여 학습 가능하고 탄젠트와 유사한 성능을 보임.
  • a = 0.25인 페널라이즈드 탄젠트는 99.75% 학습 정확도와 70.43% 테스트 정확도를 기록하여 표준 탄젠트(96.94% 및 61.99%)를 초월하고 리키 ReLU 성능에 가까워짐.
  • 페널라이즈드 탄젠트는 표준 탄젠트보다 수렴 속도가 두 배 이상 빠르며, 깊은 네트워크에서 기울기 흐름 향상이 확인됨.
  • 다양한 활성화 함수의 성능은 포화 자체보다는 특히 f(0)와 f’(0)와 같은 영점 근처 행동과 강하게 상관됨.
  • 결과는 포화가 고갈 기울기를 유발한다는 일반적인 믿음을 뒤집으며, 활성화 함수 설계 시 국소적 기울기와 오프셋을 더 신중히 고려해야 함을 시사함.
  • 비록 포화되어 있지만, 페널라이즈드 탄젠트는 리키 ReLU(70.64% 테스트 정확도)와 거의 동일한 성능을 보이며, 음수 영역이 적절히 페널티 처리되면 포화가 본질적으로 해로운 것은 아님을 시사함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.