Skip to main content
QUICK REVIEW

[论文解读] Gaussian Error Linear Units (GELUs)

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Jun 27, 2016
Anomaly Detection Techniques and Applications参考文献 22被引用 3,145
一句话总结

GELU 激活,被定义为 xΦ(x),通过高斯 CDF 按输入大小加权,在 CV、NLP 和语音任务中始终优于 ReLU 和 ELU,同时在计算方面与标准激活函数相当。

ABSTRACT

We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU activation function is $xΦ(x)$, where $Φ(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than gates inputs by their sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all considered computer vision, natural language processing, and speech tasks.

研究动机与目标

  • 引入一种从概率角度出发的激活函数,将随机正则化与非线性处理相结合。
  • 在多样化任务(MNIST、CIFAR、TIMIT、NLP 等)上经验性比较 GELU 与 ReLU 和 ELU。
  • 展示 GELU 的鲁棒性与训练行为的优势。
  • 提供实现 GELU 及其快速近似的实用指南。

提出的方法

  • 将 GELU 定义为 GELU(x) = xΦ(x) = x * (1/2)[1 + erf(x/√2)].
  • 通过将随机正则化思想(类似 dropout 的掩蔽)与输入相关权重整合来激励 GELU。
  • 提出快速 GELU 近似(例如 0.5 x (1 + tanh[√(2/π)(x + 0.044715 x^3)]))以及 SiLU 作为替代。
  • 在多项任务中使用 Adam 优化和标准网络结构,将 GELU 与 ReLU 和 ELU 进行比较。
  • 使用标准基准测试(MNIST、MNIST 自编码器、Twitter POS 标注、TIMIT、CIFAR-10/100)来评估性能与训练行为。
  • 讨论与 ReLU(x1{x>0})和 ELU(凸、单调)之间的联系,并提供实现方面的实用指南。

实验结果

研究问题

  • RQ1GELU 是否在视觉、NLP 和语音任务中提供相对于 ReLU 和 ELU 的一致性精度提升?
  • RQ2与其他激活函数相比,GELU 如何影响训练动态和对输入噪声的鲁棒性?
  • RQ3GELU 的理论优势(概率权重、平滑激活)是否在标准基准上的经验结果中得到体现?
  • RQ4有哪些在保留性能的同时最小化计算开销的快速近似?

主要发现

  • GELU 经常在 MNIST 的有 dropout 或无 dropout 的情况下达到最低的中位训练对数损失。
  • 在 CIFAR-10 的较浅 CNN 上,GELU 的中位错误率为 7.89%,而 ReLU 为 8.16%,ELU 为 8.41%。
  • 对于 CIFAR-100 WideResNet,GELU 达到 20.74% 的错误率,优于 ReLU 的 21.77% 和 ELU 的 22.98%。
  • 在 TIMIT 框架分类中,GELU 的测试错误率为 29.3%,而 ReLU 为 29.5%、ELU 为 29.6%。
  • 在 Twitter POS 标注中,GELU 的测试错误率为 12.57%,略优于 ReLU 的 12.67% 和 ELU 的 12.91%。
  • GELU 对输入噪声在 MNIST 上表现出鲁棒性,在受损条件下的性能与 ReLU 和 ELU 相当或更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。