QUICK REVIEW

[论文解读] Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)

Brad Carlile, Guy Delamarter|arXiv (Cornell University)|Oct 27, 2017

Advanced Neural Network Applications参考文献 5被引用 42

一句话总结

本文提出了一种新型激活函数——反平方根线性单元（ISRLU），通过实现更平滑的可微负向饱和，相较于ReLU和ELU，显著提升了深度学习的收敛速度与泛化性能。ISRLU在计算成本上低于ELU，尤其在CPU和硬件优化推理中表现更优，适用于卷积神经网络（CNNs）与循环神经网络（RNNs）。

ABSTRACT

We introduce the "inverse square root linear unit" (ISRLU) to speed up learning in deep neural networks. ISRLU has better performance than ELU but has many of the same benefits. ISRLU and ELU have similar curves and characteristics. Both have negative values, allowing them to push mean unit activation closer to zero, and bring the normal gradient closer to the unit natural gradient, ensuring a noise-robust deactivation state, lessening the over fitting risk. The significant performance advantage of ISRLU on traditional CPUs also carry over to more efficient HW implementations on HW/SW codesign for CNNs/RNNs. In experiments with TensorFlow, ISRLU leads to faster learning and better generalization than ReLU on CNNs. This work also suggests a computationally efficient variant called the "inverse square root unit" (ISRU) which can be used for RNNs. Many RNNs use either long short-term memory (LSTM) and gated recurrent units (GRU) which are implemented with tanh and sigmoid activation functions. ISRU has less com- putational complexity but still has a similar curve to tanh and sigmoid.

研究动机与目标

通过引入具有改进训练动态的新激活函数，解决ReLU和ELU在深度学习中的局限性。
降低激活函数的计算开销，特别是在卷积操作日益高效化的背景下。
探索ISRLU在CNN和RNN中的可行性与性能表现，包括硬件优化实现。
评估ISRLU通过负向激活值与平滑梯度减少偏差偏移并提升泛化能力的能力。

提出的方法

提出ISRLU作为分段函数：当x ≥ 0时，f(x) = x；当x < 0时，f(x) = x / √(1 + αx²)，其中α为可学习超参数。
推导一阶导数为：当x ≥ 0时，f’(x) = 1；当x < 0时，f’(x) = [1 / √(1 + αx²)]³，确保梯度平滑。
提出ISRU作为RNN的变体，定义为f(x) = x / √(1 + αx²)，功能形式相似，但正向输入无恒等映射。
实验中采用标准训练协议，使用ADAM优化器，权重通过截断正态分布初始化，并应用批量归一化。
在MNIST数据集上，对比ISRLU与ReLU、ELU及ISRU在多种CNN和RNN架构中的性能表现。
通过在Intel Xeon Platinum 8160上的每输出元素周期数评估计算效率，显示ISRLU在激活成本上优于ELU。

实验结果

研究问题

RQ1ISRLU是否能在深度CNN中实现比ReLU和ELU更快的训练速度与更好的泛化性能？
RQ2ISRLU相比ELU计算复杂度更低，这一优势是否能在CPU及硬件优化环境中转化为可测量的性能提升？
RQ3ISRLU是否能有效减少偏差偏移并实现均值得到更接近零的激活中心，类似ELU？
RQ4鉴于其计算效率，ISRU变体是否适合作为LSTM和GRU等RNN中tanh与sigmoid的替代方案？
RQ5ISRLU中可学习超参数α在不同网络深度与架构下对模型性能与收敛性有何影响？

主要发现

在MNIST数据集上，ISRLU在α=1.0和α=3.0时分别取得99.30%与99.32%的测试准确率，优于ReLU（99.17%）与ELU（99.09%），且在相似条件下表现更优。
ISRLU网络的交叉熵损失更低（α=3.0时为2.308），低于ReLU（2.644）与ELU（2.395），表明泛化能力更强。
ISRLU的训练误差下降速度明显快于ReLU与ELU，表明其在优化过程中收敛更快。
在基于ISRU的RNN中，ISRLU相比tanh提速达3至6倍，且性能与sigmoid相当或更优，具体取决于x86架构。
ISRLU的计算成本显著低于ELU，每输出元素周期数降至约0.51（适用于3x1与1x3的Inception风格滤波器）。
ISRLU的平滑连续导数与负向饱和特性有助于减少偏差偏移并改善梯度流动，从而加速学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。