[论文解读] A Survey on Activation Functions and their relation with Xavier and He Normal Initialization
一份综述,详细介绍激活函数的性质、主要激活函数(sigmoid、tanh、ReLU、Leaky ReLU、PReLU)、它们的问题,以及 Xavier 和 He 正态初始化与它们的关系。
In artificial neural network, the activation function and the weight initialization method play important roles in training and performance of a neural network. The question arises is what properties of a function are important/necessary for being a well-performing activation function. Also, the most widely used weight initialization methods - Xavier and He normal initialization have fundamental connection with activation function. This survey discusses the important/necessary properties of activation function and the most widely used activation functions (sigmoid, tanh, ReLU, LReLU and PReLU). This survey also explores the relationship between these activation functions and the two weight initialization methods - Xavier and He normal initialization.
研究动机与目标
- 识别使激活函数在神经网络中有效的关键属性。
- 评审广泛使用的激活函数及其优点与局限性。
- 解释 Xavier 初始化和 He 正态初始化如何与激活函数相关。
- 突出梯度消失和死神经元等问题及其与激活函数的关系。
提出的方法
- 本文综述激活函数的性质及其面临的问题(梯度消失、死神经元)。
- 它分析 sigmoid、tanh、ReLU、Leaky ReLU 和 PReLU,详细描述它们的特征及缺点。
- 它分析权重初始化方法(Xavier 和 He 正态)及其对深层网络训练的影响。
- 讨论激活函数的性质如何与初始化相互作用以影响训练动态。
实验结果
研究问题
- RQ1在神经网络中,哪些属性对激活函数的良好表现是必不可少的?
- RQ2常见激活函数(sigmoid、tanh、ReLU、Leaky ReLU、PReLU)在梯度消失和死神经元问题方面的比较如何?
- RQ3Xavier 初始化和 He 正态初始化如何与这些激活函数的有效性相关并影响其表现?
- RQ4在什么情况下适合使用带 Xavier 的 tanh 或带 He 初始化的 ReLU?
主要发现
- 激活函数应具备非线性、可微、连续,且理想情况下是零点居中,以促进学习。
- Sigmoid 和 tanh 会出现梯度消失;ReLU 的变体可以缓解此问题,但可能导致死神经元;PReLU/Leaky ReLU 提供中间行为。
- ReLU 与 He 正态初始化通常在训练速度和效果上更好,尤其在深层网络中;Xavier 初始化更适用于较浅的网络或线性-状态假设。
- 带 Xavier 初始化的 tanh 适用于非深度网络,但在深度结构中更倾向于使用带 He 初始化的整流非线性函数。
- 该综述将激活函数的性质与初始化选择联系起来,以解释训练动态和性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。