Skip to main content
QUICK REVIEW

[論文レビュー] Gaussian Error Linear Units (GELUs)

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Jun 27, 2016
Anomaly Detection Techniques and Applications参考文献 22被引用数 3,145
ひとこと要約

GELU 活性化関数は xΦ(x) と定義され、Gaussian CDF を用いて入力の大きさで重みを付け、CV、NLP、音声タスクを問わず ReLU および ELU を一貫して上回り、標準の活性化関数と比較して計算量も同等である。

ABSTRACT

We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU activation function is $xΦ(x)$, where $Φ(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than gates inputs by their sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all considered computer vision, natural language processing, and speech tasks.

研究の動機と目的

  • 確率的動機づけを持つ活性化関数を導入し、確率的正則化と非線形処理を融合する。
  • 実データでの多様なタスク(MNIST、CIFAR、TIMIT、NLP など)に対して GELU を ReLU および ELU と比較評価する。
  • GELU の頑健性とトレーニング挙動の利点を示す。
  • GELU およびその高速近似の実装に関する実用的なガイドラインを提供する。

提案手法

  • GELU を GELU(x) = xΦ(x) = x * (1/2)[1 + erf(x/√2)] と定義する。
  • 入力依存の重み付けと確率的正則化のアイデア(ドロップアウト風のマスキング)を統合して GELU を動機づける。
  • 高速 GELU 近似(例: 0.5 x (1 + tanh[√(2/π)(x + 0.044715 x^3)]))および SiLU を代替として提案する。
  • Adam 最適化と標準的なネットワークアーキテクチャを用いて、複数のタスクで GELU を ReLU および ELU と比較する。
  • 標準的なベンチマーク(MNIST、MNIST 自己符号化器、Twitter の品詞タグ付け、TIMIT、CIFAR-10/100)を用いて性能と訓練挙動を評価する。
  • ReLU (x1{x>0}) および ELU(凸で単調)への関連を論じ、実装に関する実用的なガイダンスを提供する。

実験結果

リサーチクエスチョン

  • RQ1GELU は視覚、NLP、音声タスク全体で ReLU および ELU に対して一貫した精度向上を提供するか?
  • RQ2他の活性化関数と比較して GELU はトレーニングダイナミクスと入力ノイズに対する頑健性にどのように影響するか?
  • RQ3GELU の理論的利点(確率的重み付け、滑らかな活性化)が標準ベンチマークで経験的結果に反映されているか?
  • RQ4最小の計算オーバーヘッドで性能を維持する実用的な GELU の高速近似は何か?

主な発見

  • GELU は MNIST でドロップアウトの有無にかかわらず最小の中央値トレーニングロスをしばしばもたらす。
  • 深さの浅い CNN で CIFAR-10 の場合、GELU は中央値誤差 7.89%、ReLU が 8.16%、ELU が 8.41%。
  • CIFAR-100 WideResNet では GELU が 20.74% の誤差を達成し、ReLU 21.77%、ELU 22.98% を上回る。
  • TIMIT フレーム分類では GELU が 29.3% のテスト誤差、ReLU が 29.5%、ELU が 29.6%。
  • Twitter の品詞タグ付けで GELU は 12.57% のテスト誤差、ReLU 12.67%、ELU 12.91% よりやや良い。
  • GELU は MNIST で入力ノイズに対する頑健性を示し、破損下で ReLU および ELU の性能と同等以上を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。