Skip to main content
QUICK REVIEW

[论文解读] Deep Learning with S-shaped Rectified Linear Activation Units

Xiaojie Jin, Chunyan Xu|arXiv (Cornell University)|Dec 22, 2015
Advanced Neural Network Applications参考文献 17被引用 97
一句话总结

本文提出S型修正线性单元(SReLU),一种新型激活函数,通过建模心理物理学定律(韦伯-费克纳定律与史蒂文斯定律)的四个可学习参数,能够同时学习凸函数与非凸函数。SReLU在CIFAR-10、CIFAR-100、MNIST和ImageNet上显著提升了深度网络性能,计算开销极低,相较于ReLU、Leaky ReLU、PReLU和Maxout实现了当前最优的准确率提升。

ABSTRACT

Rectified linear activation units are important components for state-of-the-art deep convolutional networks. In this paper, we propose a novel S-shaped rectified linear activation unit (SReLU) to learn both convex and non-convex functions, imitating the multiple function forms given by the two fundamental laws, namely the Webner-Fechner law and the Stevens law, in psychophysics and neural sciences. Specifically, SReLU consists of three piecewise linear functions, which are formulated by four learnable parameters. The SReLU is learned jointly with the training of the whole deep network through back propagation. During the training phase, to initialize SReLU in different layers, we propose a "freezing" method to degenerate SReLU into a predefined leaky rectified linear unit in the initial several training epochs and then adaptively learn the good initial values. SReLU can be universally used in the existing deep networks with negligible additional parameters and computation cost. Experiments with two popular CNN architectures, Network in Network and GoogLeNet on scale-various benchmarks including CIFAR10, CIFAR100, MNIST and ImageNet demonstrate that SReLU achieves remarkable improvement compared to other activation functions.

研究动机与目标

  • 解决现有基于ReLU的激活函数在学习非凸函数方面的局限性。
  • 开发一种通用激活单元,能够建模深度网络中的凸与非凸非线性关系。
  • 通过反向传播实现激活参数的端到端学习,同时保持计算效率。
  • 在不显著增加模型复杂度的前提下,提升深度卷积神经网络的泛化能力与收敛速度。

提出的方法

  • SReLU被定义为具有三个分段的分段线性函数,由四个可学习参数参数化:左侧斜率(a^l)、右侧斜率(a^r)以及两个阈值(t^l, t^r)。
  • 该函数模仿韦伯-费克纳定律的对数形式与史蒂文斯定律的幂律形式,从而能够建模多样的非线性行为。
  • 采用“冻结”初始化策略,首先在训练初期将SReLU约束为类似Leaky ReLU的行为,随后通过反向传播逐步自适应调整参数。
  • SReLU被集成到现有深度网络(如Network-in-Network与GoogLeNet)中,仅引入可忽略的额外参数与计算开销。
  • 模型通过标准反向传播进行端到端训练,SReLU参数与网络权重共同更新。
  • 该方法在多个基准数据集上进行评估:CIFAR-10、CIFAR-100、MNIST与ImageNet,采用单视角与增强训练协议。

实验结果

研究问题

  • RQ1激活函数是否能在无架构约束的情况下同时学习凸函数与非凸函数?
  • RQ2建模心理物理学定律(韦伯-费克纳定律与史蒂文斯定律)是否能提升深度网络中的表征学习能力?
  • RQ3SReLU是否在准确率与收敛速度方面优于ReLU、Leaky ReLU、PReLU与Maxout?
  • RQ4SReLU如何适应网络各层中不同的输入分布?
  • RQ5SReLU在大规模图像分类任务(如ImageNet)中的影响如何?

主要发现

  • 在CIFAR-10上,SReLU将测试误差降低至0.35%(使用NIN),优于ReLU(0.47%)及其他变体。
  • 在CIFAR-100上,SReLU实现12.48%的误差率,优于ReLU(13.12%)与PReLU(12.71%)。
  • 在MNIST上,SReLU实现0.35%的误差率,与仅含0.35M参数的最佳DSN模型性能相当。
  • 在ImageNet上,采用SReLU的GoogLeNet实现9.86%的top-1误差,相比原始ReLU基线模型(11.1%)提升1.24%。
  • SReLU参数动态自适应:深层网络学习到更大的t^r值,以匹配更高的输入幅值,表明其具备强大的输入分布适应能力。
  • SReLU学习到多样的函数形式:浅层中a^r > 1(非凸),深层中a^r ≈ 1(凸),证实其同时建模两类函数的能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。