Skip to main content
QUICK REVIEW

[论文解读] Activation Functions: Comparison of trends in Practice and Research for Deep Learning

Chigozie Nwankpa, Winifred Ijomah|arXiv (Cornell University)|Nov 8, 2018
Advanced Neural Network Applications参考文献 42被引用 1,168
一句话总结

本文综述深度学习中使用的激活函数(AFs),整理现有的激活函数并对比实际部署趋势与文献结果,以帮助在应用中选择函数。

ABSTRACT

Deep neural networks have been successfully used in diverse emerging domains to solve real world complex problems with may more deep learning(DL) architectures, being developed to date. To achieve these state-of-the-art performances, the DL architectures use activation functions (AFs), to perform diverse computations between the hidden layers and the output layers of any given DL architecture. This paper presents a survey on the existing AFs used in deep learning applications and highlights the recent trends in the use of the activation functions for deep learning applications. The novelty of this paper is that it compiles majority of the AFs used in DL and outlines the current trends in the applications and usage of these functions in practical deep learning deployments against the state-of-the-art research results. This compilation will aid in making effective decisions in the choice of the most suitable and appropriate activation function for any given application, ready for deployment. This paper is timely because most research papers on AF highlights similar works and results while this paper will be the first, to compile the trends in AF applications in practice against the research results from literature, found in deep learning research to date.

研究动机与目标

  • 总结深度学习中使用的激活函数及其历史演变。
  • 突出 AFs 在多种深度学习应用中的实际部署趋势。
  • 提供关于 AF 类型及其报道的优点与局限性的整理参考,以用于部署决策。

提出的方法

  • 将激活函数分为类别与变体,详细阐述各激活函数族中的定义和公式。
  • 回顾文献结果并指出深度结构中激活函数在实际部署中的趋势。
  • 汇编激活函数的性能属性和训练行为,为特定任务的选择提供指导。

实验结果

研究问题

  • RQ1在实践和研究中,深度学习常用的激活函数有哪些?
  • RQ2在各领域中,实践与研究对 AF 使用的观察到的趋势或差异是什么?
  • RQ3基于整理的证据,在特定应用中选择激活函数可以给出何种指导?

主要发现

  • 本文整理了包括 Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、RReLU、SReLU、Softplus、ELU、PELU、SELU、Maxout、Swish、ELiSH 与 HardELiSH 在内的全面激活函数及其变体清单。
  • 它讨论了每种 AF 的优点和缺点,如训练速度、梯度行为和零均值化效应,以为部署决策提供信息。
  • 该工作强调实际 AF 使用与报告的研究结果之间的差距,旨在使选择与部署情境保持一致。
  • 它强调了诸如 Swish 和 ELiSH 之类的新型 AF 在信息流和训练动态方面与传统函数如 ReLU 的比较。
  • 本文将 AF 选择定位为跨多任务(如对象识别、语音、NLP 等)性能和泛化的关键因素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。