QUICK REVIEW

[论文解读] Gaussian Error Linear Units (GELUs)

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Jun 27, 2016

Anomaly Detection Techniques and Applications参考文献 22被引用 3,145

一句话总结

GELU 激活，被定义为 xΦ(x)，通过高斯 CDF 按输入大小加权，在 CV、NLP 和语音任务中始终优于 ReLU 和 ELU，同时在计算方面与标准激活函数相当。

ABSTRACT

We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU activation function is $xΦ(x)$, where $Φ(x)$ the standard Gaussian cumulative distribution function. The GELU nonlinearity weights inputs by their value, rather than gates inputs by their sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all considered computer vision, natural language processing, and speech tasks.

研究动机与目标

引入一种从概率角度出发的激活函数，将随机正则化与非线性处理相结合。
在多样化任务（MNIST、CIFAR、TIMIT、NLP 等）上经验性比较 GELU 与 ReLU 和 ELU。
展示 GELU 的鲁棒性与训练行为的优势。
提供实现 GELU 及其快速近似的实用指南。

提出的方法

将 GELU 定义为 GELU(x) = xΦ(x) = x * (1/2)[1 + erf(x/√2)].
通过将随机正则化思想（类似 dropout 的掩蔽）与输入相关权重整合来激励 GELU。
提出快速 GELU 近似（例如 0.5 x (1 + tanh[√(2/π)(x + 0.044715 x^3)])）以及 SiLU 作为替代。
在多项任务中使用 Adam 优化和标准网络结构，将 GELU 与 ReLU 和 ELU 进行比较。
使用标准基准测试（MNIST、MNIST 自编码器、Twitter POS 标注、TIMIT、CIFAR-10/100）来评估性能与训练行为。
讨论与 ReLU（x1{x>0}）和 ELU（凸、单调）之间的联系，并提供实现方面的实用指南。

实验结果

研究问题

RQ1GELU 是否在视觉、NLP 和语音任务中提供相对于 ReLU 和 ELU 的一致性精度提升？
RQ2与其他激活函数相比，GELU 如何影响训练动态和对输入噪声的鲁棒性？
RQ3GELU 的理论优势（概率权重、平滑激活）是否在标准基准上的经验结果中得到体现？
RQ4有哪些在保留性能的同时最小化计算开销的快速近似？

主要发现

GELU 经常在 MNIST 的有 dropout 或无 dropout 的情况下达到最低的中位训练对数损失。
在 CIFAR-10 的较浅 CNN 上，GELU 的中位错误率为 7.89%，而 ReLU 为 8.16%，ELU 为 8.41%。
对于 CIFAR-100 WideResNet，GELU 达到 20.74% 的错误率，优于 ReLU 的 21.77% 和 ELU 的 22.98%。
在 TIMIT 框架分类中，GELU 的测试错误率为 29.3%，而 ReLU 为 29.5%、ELU 为 29.6%。
在 Twitter POS 标注中，GELU 的测试错误率为 12.57%，略优于 ReLU 的 12.67% 和 ELU 的 12.91%。
GELU 对输入噪声在 MNIST 上表现出鲁棒性，在受损条件下的性能与 ReLU 和 ELU 相当或更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。