QUICK REVIEW

[论文解读] Learning Activation Functions to Improve Deep Neural Networks

Forest Agostinelli, Matthew D. Hoffman|arXiv (Cornell University)|Dec 21, 2014

Computational Physics and Python Applications参考文献 13被引用 349

一句话总结

本文提出自适应分段线性（APL）激活函数，其中每个神经元通过梯度下降学习其自身的激活函数，采用参数化的分段线性形式。该方法在CIFAR-10（7.51%错误率）、CIFAR-100（30.83%错误率）以及高能物理领域的希格斯玻色子衰变任务中均达到最先进性能，优于固定激活函数和先前基线方法。

ABSTRACT

Artificial neural networks typically have a fixed, non-linear activation function at each neuron. We have designed a novel form of piecewise linear activation function that is learned independently for each neuron using gradient descent. With this adaptive activation function, we are able to improve upon deep neural network architectures composed of static rectified linear units, achieving state-of-the-art performance on CIFAR-10 (7.51%), CIFAR-100 (30.83%), and a benchmark from high-energy physics involving Higgs boson decay modes.

研究动机与目标

解决固定、人工设计的激活函数在深度神经网络中的局限性。
探究在训练过程中学习激活函数是否能提升泛化能力和性能。
开发一种灵活且可微分的激活函数，能够表示凸与非凸的分段线性函数。
评估自适应激活函数对标准基准和实际科学应用的影响。
证明个体化、学习得到的激活函数可提升模型表达能力与训练效果。

提出的方法

每个神经元的激活函数定义为多个铰链形状的ReLU单元之和：$ h_i(x) = \max(0,x) + \sum_{s=1}^{S} a_i^s \max(0, -x + b_i^s) $。
参数 $ a_i^s $ 和 $ b_i^s $ 与网络权重一同通过标准反向传播进行学习。
铰链组件数量 $ S $ 为超参数，主实验中采用 $ S=2 $。
在适度的渐近约束下，该函数可逼近任意连续的分段线性函数。
该方法能够实现凸与非凸激活形状，与Maxout或ReLU不同。
额外参数数量为 $ 2SM $，相对于网络总参数量较小。

实验结果

研究问题

RQ1在标准基准上，每个神经元独立学习激活函数是否能提升深度神经网络的性能？
RQ2能够学习非凸激活函数是否能带来比固定或Maxout风格激活函数更好的泛化性能？
RQ3铰链组件数量 $ S $ 如何影响模型性能与表达能力？
RQ4学习到的激活函数在不同层与数据集间是否存在显著差异，表明功能上的多样化适应？
RQ5在真实世界科学应用中（如希格斯玻色子衰变模式分类），自适应激活函数是否能提升性能？

主要发现

基于APL的网络在CIFAR-10上达到7.51%的测试错误率，优于ReLU基线和集成方法。
在CIFAR-100上，APL模型实现30.83%的错误率，显著优于先前最先进方法。
在高能物理领域的希格斯玻色子衰变任务中，APL模型达到AUC为0.804，发现显著性达3.41σ，优于ReLU基线和集成模型。
在初始化时冻结学习到的激活函数仅导致性能小幅下降（错误率为12.55%），表明学习过程对性能提升至关重要。
当 $ S=5 $ 时，CIFAR-100性能最佳（错误率为11.38%），而 $ S=10 $ 时出现轻微退化。
可视化结果显示，在CIFAR-100和希格斯任务中，不同层的激活函数学习结果差异更大，且深层网络中差异减小，表明存在分层特异性适应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。