QUICK REVIEW

[论文解读] Comparison of non-linear activation functions for deep neural networks on MNIST classification task

Dabal Pedamonti|arXiv (Cornell University)|Apr 8, 2018

Neural Networks and Applications参考文献 2被引用 120

一句话总结

该论文将 Leaky ReLU、ELU、SELU 与 ReLU 和 sigmoid 在 MNIST 上进行比较，分析网络深度最高达 8 层，并评估各种权重初始化策略和学习率以评估性能和泛化。

ABSTRACT

Activation functions play a key role in neural networks so it becomes fundamental to understand their advantages and disadvantages in order to achieve better performances. This paper will first introduce common types of non linear activation functions that are alternative to the well known sigmoid function and then evaluate their characteristics. Moreover deeper neural networks will be analysed because they positively influence the final performances compared to shallower networks. They also strictly depend on the weight initialisation hence the effect of drawing weights from Gaussian and uniform distribution will be analysed making particular attention on how the number of incoming and outgoing connection to a node influence the whole network.

研究动机与目标

评估并比较不同非线性激活函数（Leaky ReLU、ELU、SELU）在 MNIST 分类中的表现，相对于 sigmoid 和 ReLU 基线。
研究网络深度（高达 8 个隐藏层）在不同权重初始化方案下对准确率和损失的影响。
评估初始化策略（Glorot 均匀/高斯、fan_in、fan_out）和学习率如何影响训练过程和泛化能力。

提出的方法

描述并分析激活函数（ReLU 变体）及其梯度。
在两层隐藏层（每层 100 个单元）的情况下进行 MNIST 实验以比较激活函数。
在学习率 0.01、0.05、0.1、0.2 之间变化并观察训练和验证集的损失/准确率。
在使用不同权重初始化（均匀、fan_in、fan_out、高斯）时评估具有 ELU 的更深网络（并与 SELU 对比）。
记录验证集准确率和损失，随着深度增加至 8 个隐藏层。
比较初始化方法（Glorot 均匀、fan_in、fan_out、Gaussian）的效果，并报告对准确率和损失的影响。

实验结果

研究问题

RQ1哪些激活函数（Leaky ReLU、ELU、SELU）在 MNIST 上相对于 sigmoid 和 ReLU 基线能产生最佳准确率和最低损失？
RQ2在不同权重初始化方案下，随着网络深度增加，ELU 和 SELU 在 MNIST 上的性能如何变化？
RQ3权重初始化（Glorot 均匀/高斯、fan_in、fan_out）对 ELU/SELU 网络的训练动力学和最终准确率有何影响？
RQ4学习率选择（如 0.05 vs 0.1）如何影响验证性能和这些激活函数的过拟合？

主要发现

ELU 在 MNIST 的多次实验中通常比 Leaky ReLU 和 ReLU 提供更好的损失和准确率。
在多数实验中 ELU 常常优于 SELU，尽管在某些学习率（例如 0.05）下 SELU 也可能接近 ELU。
ReLU 及其变体在 MNIST 任务上始终优于 Sigmoid。
具有 ELU 的更深网络在验证准确率方面可达到最高 0.983（7 层隐藏层，Glorot 均匀初始化）。
权重初始化显著影响最终的准确率和损失；Glorot 均匀通常带来较好的平均准确率，深层网络提升性能但也增加训练时间。
在 SELU 情况下，高斯初始化通常比均匀初始化提供更加稳定的验证损失和更高的准确率。
随着深度增加，准确率趋向提升，训练时间增加，体现了性能与计算之间的权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。