Skip to main content
QUICK REVIEW

[논문 리뷰] Mish: A Self Regularized Non-Monotonic Neural Activation Function

Diganta Misra|arXiv (Cornell University)|2019. 10. 02.
Neural Networks and Applications인용 수 491
한 줄 요약

이 논문은 딥 네ural 네트워크 성능 향상을 위해 설계된 자기 정규화된 비단조화 활성화 함수인 Mish를 제안한다. 부드러움과 비단조화성을 결합함으로써, 여러 아키텍처와 데이터셋에서 ReLU 및 Swish보다 높은 정확도를 달성한다. 특히 CIFAR-100에서 SqueezeNet-18에서 ReLU보다 1.671% 높은 정확도를 기록한다.

ABSTRACT

The concept of non-linearity in a Neural Network is introduced by an activation function which serves an integral role in the training and performance evaluation of the network. Over the years of theoretical research, many activation functions have been proposed, however, only a few are widely used in mostly all applications which include ReLU (Rectified Linear Unit), TanH (Tan Hyperbolic), Sigmoid, Leaky ReLU and Swish. In this work, a novel neural activation function called as Mish is proposed. The experiments show that Mish tends to work better than both ReLU and Swish along with other standard activation functions in many deep networks across challenging datasets. For instance, in Squeeze Excite Net- 18 for CIFAR 100 classification, the network with Mish had an increase in Top-1 test accuracy by 0.494% and 1.671% as compared to the same network with Swish and ReLU respectively. The similarity to Swish along with providing a boost in performance and its simplicity in implementation makes it easier for researchers and developers to use Mish in their Neural Network Models.

연구 동기 및 목표

  • 딥 네트워크에서 복잡한 비선형 표현을 포착하는 데 한계가 있는 기존 활성화 함수들(예: ReLU 및 Swish)의 문제를 해결하기 위해.
  • 자기 정규화와 부드러움을 통해 일반화 능력과 학습 안정성을 향상시키는 활성화 함수를 개발하기 위해.
  • 계산 복잡도를 증가시키지 않고 다양한 딥 러닝 아키텍처에서 성능 향상을 이루기 위해.
  • 기존 널리 사용되는 활성화 함수보다 표준 벤치마크에서 뛰어난 성능을 보이는, 간단하게 구현 가능한 대안을 제공하기 위해.

제안 방법

  • 자기 정규화된 비단조화 활성화 함수인 Mish를 제안하며, 이는 $ f(x) = x \cdot \tanh(\text{silu}(x)) $ 로 정의된다. 여기서 $ \text{silu}(x) = x \cdot \sigma(x) $ 이고 $ \sigma(x) $ 는 시그모이드 함수이다.
  • 함수의 부드럽고 비단조화적인 행동이 가지는 자기 정규화 성질을 활용하여 학습 중 최적화 역학을 향상시킨다.
  • 기울기 흐름 정규화를 통해 내부 공변량 이동을 감소시키면서도 높은 표현 능력을 유지할 수 있도록 함수를 설계한다.
  • 효율적인 역전파와 기존 딥 러닝 프레임워크에 최소한의 코드 수정으로 통합 가능한 매개변수 형태를 채택한다.
  • 안정성과 수렴성을 보장하기 위해 도함수와 곡률 성질에 대한 이론적 분 析를 통해 함수의 행동을 검증한다.

실험 결과

연구 질문

  • RQ1비단조화 활성화 함수는 ReLU 및 Swish와 같은 단조화 대안에 비해 딥 네럴 네트워크의 일반화 능력과 성능 향상에 기여할 수 있는가?
  • RQ2Mish의 자기 정규화 성질은 더 나은 최적화 역학과 학습 안정성으로 이어지는가?
  • RQ3다양한 벤치마크 데이터셋과 아키텍처에서 Mish는 ReLU 및 Swish와 비교해 정확도와 수렴 속도 측면에서 어떻게 성과를 내는가?
  • RQ4Mish의 부드러움과 비단조화성은 표현 학습 향상에 얼마나 기여하는가?

주요 결과

  • SqueezeNet-18에서 CIFAR-100에서 Mish는 Swish보다 0.494% 높은 top-1 테스트 정확도를 기록했다.
  • 동일한 SqueezeNet-18 아키텍처에서 CIFAR-100에서 Mish는 ReLU보다 top-1 정확도를 1.671% 향상시켰다.
  • 제안된 활성화 함수는 다양한 딥 러닝 모델과 도전적인 데이터셋에서 일관된 성능 향상을 보였다.
  • Mish의 부드럽고 비단조화적인 성질은 학습 중 더 나은 기울기 흐름과 최적화 안정성을 기여했다.
  • 함수는 쉽게 구현 가능하며 기존 딥 러닝 프레임워크와의 호환성이 뛰어나 아키텍처 수정 없이도 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.