Skip to main content
QUICK REVIEW

[论文解读] LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks

Swalpa Kumar Roy, Suvojit Manna|arXiv (Cornell University)|Jan 1, 2019
Human Pose and Action Recognition被引用 26
一句话总结

本文提出 LiSHT,一种非参数化、线性缩放的双曲正切激活函数,通过解除 Tanh 函数的有界性,增强非线性并缓解梯度消失问题。在图像、向量和 NLP 任务上的评估表明,LiSHT 实现了最先进的准确率提升——在 ResNet 上对 CIFAR100 的准确率最高提升 9.48%,其优势源于更平滑的损失景观、对称的权重分布以及更优的激活动态,相比 ReLU、Swish 等 SOTA 激活函数表现更优。

ABSTRACT

The activation function in neural network introduces the non-linearity required to deal with the complex tasks. Several activation/non-linearity functions are developed for deep learning models. However, most of the existing activation functions suffer due to the dying gradient problem and non-utilization of the large negative input values. In this paper, we propose a Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs) by scaling the Tanh linearly. The proposed LiSHT is non-parametric and tackles the dying gradient problem. We perform the experiments on benchmark datasets of different type, such as vector data, image data and natural language data. We observe the superior performance using Multi-layer Perceptron (MLP), Residual Network (ResNet) and Long-short term memory (LSTM) for data classification, image classification and tweets classification tasks, respectively. The accuracy on CIFAR100 dataset using ResNet model with LiSHT is improved by 9.48, 3.40, 3.16, 4.26, and 1.17\% as compared to Tanh, ReLU, PReLU, LReLU, and Swish, respectively. We also show the qualitative results using loss landscape, weight distribution and activations maps in support of the proposed activation function.

研究动机与目标

  • 解决现有激活函数(如 ReLU 和 Tanh)中存在的梯度消失问题以及对负输入利用不足的问题。
  • 开发一种非参数化激活函数,在增强非线性的同时保持对称性和平滑性。
  • 通过构建更优的损失景观和均衡的权重分布,提升训练稳定性和收敛性。
  • 在包括图像分类、向量数据处理和序列建模在内的多样化深度学习任务中评估所提出的 LiSHT。
  • 在基准数据集上证明 LiSHT 在准确率方面优于 ReLU、Swish、PReLU 和 LReLU 等 SOTA 激活函数。

提出的方法

  • LiSHT 通过线性缩放双曲正切函数推导而来,将其输出范围从有界的 [-1, 1] 扩展为无界范围,从而增强非线性。
  • 该激活函数为非参数化,即不包含可学习参数,确保在不同网络架构中具备稳定性和泛化能力。
  • 该函数设计为对称、平滑且非单调,有助于在正负输入区域实现更均衡的梯度流动。
  • 采用多层感知机(MLP)、残差网络(ResNet)和长短期记忆网络(LSTM)模型,在多样化数据集上对方法进行评估。
  • 可视化分析包括损失景观可视化(二维和三维)、权重分布映射以及激活图对比,以验证训练动态。
  • 实验在 MNIST、CIFAR100 和 Twitter 情感分类等基准数据集上进行,以评估跨模态的性能表现。

实验结果

研究问题

  • RQ1线性缩放的 Tanh 版本是否能在缓解梯度消失问题方面优于 ReLU 及其变体?
  • RQ2LiSHT 如何影响深层网络中损失景观的结构,特别是在收敛性和非凸性方面?
  • RQ3与 ReLU 和 Swish 相比,LiSHT 在权重分布对称性和范围扩展方面改善程度如何?
  • RQ4LiSHT 是否能提升卷积网络和循环网络中激活图的质量与特征表示能力?
  • RQ5在图像、向量和序列分类任务中,LiSHT 与 SOTA 激活函数相比在准确率方面表现如何?

主要发现

  • 在 ResNet 上的 CIFAR100 数据集上,LiSHT 相较于 Tanh 准确率提升 9.48%,相较于 ReLU 提升 3.40%,PReLU 提升 3.16%,LReLU 提升 4.26%,Swish 提升 1.17%。
  • LiSHT 产生的损失景观比 ReLU 和 Swish 更平滑且更具凸性,从而在训练过程中实现更快更稳定的收敛。
  • LiSHT 的权重分布呈现对称性,且绝对值范围更广(例如 -8 到 6),而 ReLU 的权重分布偏向正数,Tanh 的权重则被限制在 -5 到 4 之间。
  • 使用 LiSHT 的激活图表现出更少的噪声和更均匀的特征图分布,表明其具有更优的特征学习能力。
  • LiSHT 的一阶和二阶导数分析表明,其非线性程度显著高于标准 Tanh 和 ReLU。
  • LiSHT 在图像分类(ResNet)和序列建模(Twitter 上的 LSTM)任务中均优于所有基线模型,展现出广泛的适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。