Skip to main content
QUICK REVIEW

[논문 리뷰] Swish: a Self-Gated Activation Function

Prajit Ramachandran, Barret Zoph|arXiv (Cornell University)|2017. 10. 16.
Domain Adaptation and Few-Shot Learning참고 문헌 19인용 수 326
한 줄 요약

이 논문은 $f(x) = x \cdot \text{sigmoid}(x)$로 정의된 자기게이팅 활성화 함수인 Swish를 소개하며, 더 깊은 네트워크에서 ReLU를 능가함을 보여준다. 실험 결과, Swish는 Mobile NASNet-A에서 ImageNet의 top-1 정확도를 0.9% 향상시키고, Inception-ResNet-v2에서는 0.6% 향상시키며, 구현에 필요한 아키텍처 변경이 최소한이 된다.

ABSTRACT

The choice of activation functions in deep networks has a significant effect on the training dynamics and task performance. Currently, the most successful and widely-used activation function is the Rectified Linear Unit (ReLU). Although various alternatives to ReLU have been proposed, none have managed to replace it due to inconsistent gains. In this work, we propose a new activation function, named Swish, which is simply $f(x) = x \cdot ext{sigmoid}(x)$. Our experiments show that Swish tends to work better than ReLU on deeper models across a number of challenging datasets. For example, simply replacing ReLUs with Swish units improves top-1 classification accuracy on ImageNet by 0.9% for Mobile NASNet-A and 0.6% for Inception-ResNet-v2. The simplicity of Swish and its similarity to ReLU make it easy for practitioners to replace ReLUs with Swish units in any neural network.

연구 동기 및 목표

  • 딥 러닝 모델에서 ReLU 및 기존 ReLU 대체 기법의 한계를 해결하기 위해.
  • 더 깊은 아키텍처 전반에서 일관되게 성능을 향상시키는 활성화 함수를 규명하기 위해.
  • 기존 신경망 프레임워크와의 호환성을 유지하면서도 단순하고 효과적인 활성화 함수를 개발하기 위해.
  • ImageNet과 같은 도전적인 벤치마크에서 제안된 활성화 함수의 영향을 평가하기 위해.

제안 방법

  • Swish를 $f(x) = x \cdot \text{sigmoid}(x)$로 정의하는 새로운 활성화 함수를 제안함.
  • 시그모이드 게이트의 부드럽고 비단조화적인 성질을 활용해 자기게이팅 행동을 가능하게 함.
  • Swish를 ReLU 대체로 사용하여 기울기 기반 최적화를 통해 모델을 훈련함.
  • ImageNet, Mobile NASNet-A, Inception-ResNet-v2를 포함한 표준 벤치마크에서 성능을 평가함.
  • ReLU와 동일한 입력-출력 차원을 유지함으로써 후행 호환성을 확보함.

실험 결과

연구 질문

  • RQ1Swish와 같은 자기게이팅 활성화 함수가 ReLU보다 더 깊은 모델에서 성능을 향상시키는가?
  • RQ2Swish는 다양한 도전적인 딥 러닝 아키텍처 전반에서 일관된 성능 향상을 달성할 수 있는가?
  • RQ3정확도 및 훈련 동역학 측면에서 Swish는 다른 ReLU 변종과 비교해 어떻게 성과를 내는가?
  • RQ4Swish는 아키텍처 변경 없이 기존 신경망 프레임워크에 쉽게 통합될 수 있는가?

주요 결과

  • Swish는 Mobile NASNet-A에서 ReLU를 교체함으로써 ImageNet top-1 분류 정확도를 0.9% 향상시킴.
  • Swish는 Inception-ResNet-v2에서 ReLU를 대체할 경우 ImageNet top-1 분류 정확도에서 0.6%의 정확도 향상을 달성함.
  • 성능 향상은 더 깊은 모델 전반에서 일관되게 나타나, Swish가 깊은 아키텍처에서 효과적임을 시사함.
  • Swish는 단순성과 호환성을 유지하여, 어떤 신경망에서도 ReLU 유닛을 간단히 교체할 수 있음.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.