Skip to main content
QUICK REVIEW

[论文解读] Bridging Nonlinearities and Stochastic Regularizers with Gaussian Error Linear Units

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Jun 27, 2016
Adversarial Robustness in Machine Learning参考文献 24被引用 754
一句话总结

本文提出了高斯误差线性单元(GELU),一种新颖的神经网络激活函数,通过基于神经元值的随机应用恒等映射或零映射来建模随机正则化。实证结果表明,GELU在多个任务中均优于ReLU和ELU,通过非线性的概率解释实现了性能提升。

ABSTRACT

We propose the Gaussian Error Linear Unit (GELU), a high-performing neural network activation function. The GELU nonlinearity is the expected transformation of a stochastic regularizer which randomly applies the identity or zero map, combining the intuitions of dropout and zoneout while respecting neuron values. This connection suggests a new probabilistic understanding of nonlinearities. We perform an empirical evaluation of the GELU nonlinearity against the ReLU and ELU activations and find performance improvements across all tasks.

研究动机与目标

  • 开发一种新的神经网络激活函数,整合Dropout和Zoneout的原理,同时尊重输入神经元的值。
  • 通过将非线性建模为随机正则化器的期望变换,建立非线性的概率解释。
  • 在多种机器学习任务中,对GELU激活函数与ReLU和ELU等成熟替代方案进行实证评估。
  • 证明所提出的函数通过改进正则化和非线性,提升了模型性能。

提出的方法

  • GELU激活函数被定义为:一个随机正则化器的期望值,该正则化器根据输入的累积分布概率,以相应概率应用恒等映射或零映射。
  • 该函数在数学上表示为 GELU(x) = x · Φ(x),其中 Φ(x) 为标准正态累积分布函数。
  • 该方法通过随机屏蔽神经元整合了Dropout的直觉,同时通过保留部分激活整合了Zoneout的直觉,但以可微分、依赖于输入值的方式实现。
  • 随机正则化器被建模为一个随机变量,其根据输入的大小选择恒等映射或零映射,从而产生平滑且具有概率基础的非线性。
  • GELU被实现为一种可微分的连续函数,支持在深度神经网络中进行端到端训练。

实验结果

研究问题

  • RQ1在多种任务中,GELU激活函数与ReLU和ELU相比,在模型准确率方面表现如何?
  • RQ2对非线性的概率解释是否能通过随机正则化提升神经网络的泛化能力?
  • RQ3GELU的值依赖型掩码机制是否优于固定或随机掩码策略?
  • RQ4将Dropout和Zoneout原理以连续可微形式整合,能在多大程度上提升模型性能?

主要发现

  • 在所有评估任务中,GELU激活函数均一致地优于ReLU和ELU。
  • GELU的概率公式为非线性提供了一种新的理论理解,即非线性可被视为随机正则化器的期望变换。
  • 该函数的平滑连续特性,使其在深层网络中能够实现稳定且高效的反向传播。
  • 实证结果证实,GELU的值依赖型随机正则化相比标准ReLU和ELU,能带来更好的泛化性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。