[论文解读] Revise Saturated Activation Functions
本文提出一种缩放逻辑斯蒂S型函数和一种惩罚性双曲正切激活函数,以提升深度网络的训练稳定性。通过将S型函数重新缩放以实现零均值和零点附近的更陡峭斜率,并对双曲正切函数的负区域施加惩罚,作者实现了与ReLU和Leaky ReLU相当的性能,挑战了‘饱和性必然导致梯度消失’的假设。
In this paper, we revise two commonly used saturated functions, the logistic sigmoid and the hyperbolic tangent (tanh). We point out that, besides the well-known non-zero centered property, slope of the activation function near the origin is another possible reason making training deep networks with the logistic function difficult to train. We demonstrate that, with proper rescaling, the logistic sigmoid achieves comparable results with tanh. Then following the same argument, we improve tahn by penalizing in the negative part. We show that "penalized tanh" is comparable and even outperforms the state-of-the-art non-saturated functions including ReLU and leaky ReLU on deep convolution neural networks. Our results contradict to the conclusion of previous works that the saturation property causes the slow convergence. It suggests further investigation is necessary to better understand activation functions in deep architectures.
研究动机与目标
- 为解决使用逻辑斯蒂S型函数训练深度神经网络的困难,识别除非零中心化之外被低估的根本原因。
- 研究为何双曲正切函数在两者均饱和的情况下表现优于S型函数,重点分析零点附近的梯度行为。
- 提出改进的饱和激活函数,保持训练稳定性和与非饱和ReLU变体相当的性能。
- 挑战当前普遍认为饱和性必然导致深度网络中梯度消失的信念。
提出的方法
- 提出一种缩放S型函数:f(x) = 4 * sigmoid(4x) - 2,将标准S型函数重新缩放以实现零均值和更陡的初始斜率。
- 基于Xavier初始化原理,推导深度网络中方差保持的理论条件,识别零点附近的斜率和偏移量为关键因素。
- 引入一种惩罚性双曲正切函数:当x > 0时,f(x) = tanh(x);当x ≤ 0时,f(x) = a * tanh(x),其中a ∈ (0,1),以惩罚负激活区域。
- 在所有实验中使用相同的初始化方法(Xavier)和训练设置(MXNet),以确保公平比较。
- 在CIFAR-100上训练一个33层Inception网络,不使用批量归一化,以评估泛化能力和收敛速度。
- 基于多次运行的训练/测试准确率和收敛速度,比较不同激活函数的性能。
实验结果
研究问题
- RQ1为何标准逻辑斯蒂S型函数在饱和性方面与双曲正切函数相似,却无法有效训练深层网络?
- RQ2激活函数在零点附近的斜率和偏移量在梯度传播和训练稳定性中起什么作用?
- RQ3是否一种负区域被惩罚的饱和激活函数可以超越非饱和ReLU变体的性能?
- RQ4激活函数在零点附近的形状——特别是f(0)和f’(0)——是否比饱和性本身更能决定网络性能?
主要发现
- 缩放S型函数(4 * sigmoid(4x) - 2)在CIFAR-100上达到89.39%的训练准确率和59.11%的测试准确率,表明其可训练且与双曲正切函数性能相当。
- 当a = 0.25时,惩罚性双曲正切函数达到99.75%的训练准确率和70.43%的测试准确率,优于标准双曲正切函数(96.94%和61.99%),并接近Leaky ReLU的性能。
- 惩罚性双曲正切函数的收敛速度比标准双曲正切函数快两倍以上,表明其在深层网络中具有更优的梯度流动。
- 不同激活函数的性能与它们在零点附近的特性(特别是f(0)和f’(0))密切相关,而非饱和性本身。
- 结果与普遍认为‘饱和性导致梯度消失’的信念相矛盾,表明激活函数设计必须更细致地考虑局部斜率和偏移量。
- 尽管是饱和函数,惩罚性双曲正切函数的性能几乎与Leaky ReLU(70.64%测试准确率)相当,表明只要负区域得到适当惩罚,饱和性本身并非固有缺陷。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。