[论文解读] Empirical Evaluation of Rectified Activations in Convolutional Network
本论文在 CNN 中比较 ReLU、Leaky ReLU、PReLU 和 RReLU,在 CIFAR-10/100 和 NDSB 数据集上发现对小规模数据集,带泄漏的变体通常优于 ReLU;RReLU 有助于减小过拟合。它报告在不使用集成的情况下,在 Inception net 的一个子集上,RReLU 达到 75.68% 的 CIFAR-100 准确率。
In this paper we investigate the performance of different types of rectified activation functions in convolutional neural network: standard rectified linear unit (ReLU), leaky rectified linear unit (Leaky ReLU), parametric rectified linear unit (PReLU) and a new randomized leaky rectified linear units (RReLU). We evaluate these activation function on standard image classification task. Our experiments suggest that incorporating a non-zero slope for negative part in rectified activation units could consistently improve the results. Thus our findings are negative on the common belief that sparsity is the key of good performance in ReLU. Moreover, on small scale dataset, using deterministic negative slope or learning it are both prone to overfitting. They are not as effective as using their randomized counterpart. By using RReLU, we achieved 75.68\% accuracy on CIFAR-100 test set without multiple test or ensemble.
研究动机与目标
- 评估负输入的非零斜率是否能提升 CNN 性能,相较于 ReLU。
- 在标准图像分类任务上比较四种修正激活函数(ReLU、Leaky ReLU、PReLU、RReLU)。
- 研究不同激活函数在小规模与大规模数据集上的过拟合倾向。
- 为小规模数据集的激活选择提供指导,以及随机化方法的潜在好处。
提出的方法
- 定义并实现四种修正激活:ReLU、Leaky ReLU(固定斜率 a_i)、PReLU(学习的负斜率 a_i)、以及 RReLU(训练阶段从随机均匀分布采样 a_ji,测试阶段固定为配置中的 (l+u)/2)。
- 在两种 CNN 架构上,使用相同超参数在 CIFAR-10、CIFAR-100、NDSB 数据集上进行受控比较。
- 评估每种激活在训练和测试中的性能以及收敛行为。
- 对于 RReLU,在训练阶段从 Uniform(l,u) 抽样 a_ji,在测试阶段使用 (l+u)/2,按照所述配置。
- 在报告中不使用集成方法或多视图测试。
实验结果
研究问题
- RQ1将负输入的非零斜率引入是否能提升 CNN 相对于标准 ReLU 的性能?
- RQ2Leaky ReLU 变体(包括 PReLU 和 RReLU)在小规模与大规模数据集上的表现如何?
- RQ3随机化负斜率(RReLU)是否有助于缓解小数据集上的过拟合?
- RQ4在 CIFAR-10、CIFAR-100 和 NDSB 上,各激活的训练误差/损失与测试误差/损失趋势有何差异?
主要发现
- Leaky ReLU,a=5.5 在 CIFAR-10/100 和 NDSB 的测试集上持续优于 ReLU。
- PReLU 实现了最低的训练误差,但在小数据集上更易过拟合,测试误差高于某些leaky 变体。
- RReLU 显示出具有竞争力的测试误差,其随机性有助于降低过拟合,特别是在较小的数据集上。
- 在 CIFAR-100 上,RReLU 的测试损失低于若干替代方案,表明对过拟合具有鲁棒性。
- 总体而言,在小数据集上,leaky 变体优于 ReLU;大规模结果需进一步研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。