QUICK REVIEW
[论文解读] Gaussian Error Linear Units (GELUs)
Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Jun 27, 2016
Anomaly Detection Techniques and Applications参考文献 22被引用 3,145
一句话总结
GELU 激活,被定义为 xΦ(x),通过高斯 CDF 按输入大小加权,在 CV、NLP 和语音任务中始终优于 ReLU 和 ELU,同时在计算方面与标准激活函数相当。
ABSTRACT
We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU activation function is $xΦ(x)$, where $Φ(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than gates inputs by their sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all considered computer vision, natural language processing, and speech tasks.
研究动机与目标
- 引入一种从概率角度出发的激活函数,将随机正则化与非线性处理相结合。
- 在多样化任务(MNIST、CIFAR、TIMIT、NLP 等)上经验性比较 GELU 与 ReLU 和 ELU。
- 展示 GELU 的鲁棒性与训练行为的优势。
- 提供实现 GELU 及其快速近似的实用指南。
提出的方法
- 将 GELU 定义为 GELU(x) = xΦ(x) = x * (1/2)[1 + erf(x/√2)].
- 通过将随机正则化思想(类似 dropout 的掩蔽)与输入相关权重整合来激励 GELU。
- 提出快速 GELU 近似(例如 0.5 x (1 + tanh[√(2/π)(x + 0.044715 x^3)]))以及 SiLU 作为替代。
- 在多项任务中使用 Adam 优化和标准网络结构,将 GELU 与 ReLU 和 ELU 进行比较。
- 使用标准基准测试(MNIST、MNIST 自编码器、Twitter POS 标注、TIMIT、CIFAR-10/100)来评估性能与训练行为。
- 讨论与 ReLU(x1{x>0})和 ELU(凸、单调)之间的联系,并提供实现方面的实用指南。
实验结果
研究问题
- RQ1GELU 是否在视觉、NLP 和语音任务中提供相对于 ReLU 和 ELU 的一致性精度提升?
- RQ2与其他激活函数相比,GELU 如何影响训练动态和对输入噪声的鲁棒性?
- RQ3GELU 的理论优势(概率权重、平滑激活)是否在标准基准上的经验结果中得到体现?
- RQ4有哪些在保留性能的同时最小化计算开销的快速近似?
主要发现
- GELU 经常在 MNIST 的有 dropout 或无 dropout 的情况下达到最低的中位训练对数损失。
- 在 CIFAR-10 的较浅 CNN 上,GELU 的中位错误率为 7.89%,而 ReLU 为 8.16%,ELU 为 8.41%。
- 对于 CIFAR-100 WideResNet,GELU 达到 20.74% 的错误率,优于 ReLU 的 21.77% 和 ELU 的 22.98%。
- 在 TIMIT 框架分类中,GELU 的测试错误率为 29.3%,而 ReLU 为 29.5%、ELU 为 29.6%。
- 在 Twitter POS 标注中,GELU 的测试错误率为 12.57%,略优于 ReLU 的 12.67% 和 ELU 的 12.91%。
- GELU 对输入噪声在 MNIST 上表现出鲁棒性,在受损条件下的性能与 ReLU 和 ELU 相当或更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。