Skip to main content
QUICK REVIEW

[논문 리뷰] Gaussian Error Linear Units (GELUs)

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|2016. 06. 27.
Anomaly Detection Techniques and Applications참고 문헌 22인용 수 3,145
한 줄 요약

GELU 활성화는 xΦ(x)로 정의되며, 크기에 비례해 입력에 가중치를 부여하는 가우시안 CDF를 사용하고, CV, NLP, 음성 작업 전반에서 ReLU 및 ELU를 꾸준히 능가하며 표준 활성화와의 계산량도 비교 가능합니다.

ABSTRACT

We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU activation function is $xΦ(x)$, where $Φ(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than gates inputs by their sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all considered computer vision, natural language processing, and speech tasks.

연구 동기 및 목표

  • 확률적으로 동기 부여된 활성화 함수를 도입하여 확률적 정규화와 비선형 처리를 혼합한다.
  • 다양한 작업(MNIST, CIFAR, TIMIT, NLP 등)에서 GELU를 ReLU 및 ELU와 비교하여 경험적으로 평가한다.
  • GELU의 강건성과 학습 동작의 이점을 보여준다.
  • GELU 및 빠른 근사 구현에 대한 실용적 지침을 제공한다.

제안 방법

  • GELU를 GELU(x) = xΦ(x) = x * (1/2)[1 + erf(x/√2)]로 정의한다.
  • 확률적 정규화 아이디어(드롭아웃 유사 마스킹)와 입력 의존 가중치를 결합하여 GELU의 동기를 제시한다.
  • 빠른 GELU 근사(예: 0.5 x (1 + tanh[√(2/π)(x + 0.044715 x^3)]))와 SiLU를 대안으로 제시한다.
  • Adam 최적화 및 표준 네트워크 아키텍처를 사용하여 GELU를 ReLU 및 ELU와 다양한 작업에서 비교한다.
  • 표준 벤치마크(MNIST, MNIST 오토인코더, Twitter POS 태깅, TIMIT, CIFAR-10/100)를 사용하여 성능 및 학습 동작을 평가한다.
  • ReLU(x>0) 및 ELU(볼록성, 단조성)와의 연계에 대해 논의하고 구현에 대한 실용적 지침을 제공한다.

실험 결과

연구 질문

  • RQ1GELU가 시각, NLP, 음성 작업에서 ReLU 및 ELU 대비 일관된 정확도 향상을 제공하는가?
  • RQ2GELU가 다른 활성화 함수에 비해 학습 동학과 입력 잡음에 대한 강인성에 어떤 영향을 미치는가?
  • RQ3GELU의 이론적 이점(확률적 가중치 부여, 더 매끈한 활성화)이 표준 벤치마크의 실증 결과에 반영되는가?
  • RQ4성능을 유지하면서 계산 오버헤드를 최소화하는 실용적인 빠른 GELU 근사치란 무엇인가?

주요 결과

  • GELU는 MNIST에서 드롭아웃 여부와 상관없이 중간값 학습 로그 손실을 종종 최저로 산출한다.
  • 얕은 CNN으로 CIFAR-10에서 GELU는 중간 오차가 7.89%로 ReLU 8.16%, ELU 8.41%보다 낮다.
  • CIFAR-100 WideResNet에서 GELU는 20.74% 오차를 달성하여 ReLU 21.77%, ELU 22.98%를 능가한다.
  • TIMIT 프레임 분류에서 GELU는 29.3% 테스트 에러로 ReLU 29.5%, ELU 29.6%를 능가한다.
  • Twitter POS 태깅에서 GELU는 12.57% 테스트 에러로 ReLU 12.67%, ELU 12.91%보다 약간 낫다.
  • GELU는 MNIST에서 입력 노이즈에 대한 강건성을 보여주며 손상 하에서도 ReLU 및 ELU의 성능과 동등하거나 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.