Skip to main content
QUICK REVIEW

[论文解读] Activation Functions in Artificial Neural Networks: A Systematic Overview

Johannes Lederer|arXiv (Cornell University)|Jan 25, 2021
Neural Networks and Applications参考文献 32被引用 44
一句话总结

这篇论文提供对常见激活函数的全面、分析性综述,以及它们的数学属性(包括一阶和二阶导数),以及对神经网络的表达能力和优化的实际意义。

ABSTRACT

Activation functions shape the outputs of artificial neurons and, therefore, are integral parts of neural networks in general and deep learning in particular. Some activation functions, such as logistic and relu, have been used for many decades. But with deep learning becoming a mainstream research topic, new activation functions have mushroomed, leading to confusion in both theory and practice. This paper provides an analytic yet up-to-date overview of popular activation functions and their properties, which makes it a timely resource for anyone who studies or applies neural networks.

研究动机与目标

  • 给出对激活函数进行系统、客观综述的必要性,以应对选项日益增加的情况。
  • 总结常见激活函数的数学性质(包括导数和曲率)。
  • 讨论对网络表达能力、优化成本和理论分析的实际影响。
  • 为理论学家和实践者提供关于激活选择如何影响学习动力学的指导。

提出的方法

  • 定义激活函数及其导数(一阶和二阶)及方向导数。
  • 对 sigmoid 型激活(logistic、arctan、tanh、softsign)及其性质进行分类和分析。
  • 讨论激活导数对优化算法(如 SGD)和计算成本的影响。
  • 解释激活选择如何影响网络表达能力(如线性与非线性网络)和理论考量。

实验结果

研究问题

  • RQ1常见的激活函数及其关键数学性质是什么?
  • RQ2激活函数及其导数如何影响神经网络的表达能力和优化?
  • RQ3不同激活选择对训练动态和理论带来哪些实际影响?
  • RQ4线性激活如何影响网络近似函数的能力?
  • RQ5在深度学习中为从业者选择激活函数可以给出哪些指导?

主要发现

  • 激活函数塑造网络输出,并同时影响表达能力和优化复杂性。
  • 激活函数的一阶、二阶导数影响基于梯度的优化和理论分析。
  • 线性激活网络本质上是线性的,无法逼近非线性目标函数,强调非线性在表达能力中的作用。
  • sigmoid 型激活(logistic、arctan、tanh、softsign)提供平滑、有界的硬阈值替代,主要在输出范围上有所不同。
  • 逻辑激活作为二进制阶梯的平滑近似,所有导数都光滑且定义良好。
  • 本工作强调对激活函数进行客观、数学评估,超越直觉原因,证明和附录提供严格支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。