[论文解读] ProbAct: A Probabilistic Activation Function for Deep Neural Networks
该论文提出ProbAct,一种新颖的随机可训练激活函数,其输出从由可学习均值和方差定义的高斯分布中采样。通过在前向传播中引入随机性,ProbAct起到正则化作用,提升泛化能力与不确定性估计,相较于ReLU在图像数据集上实现2–3%的准确率提升,在文本数据集上实现1–2%的提升,即使在数据减少和噪声输入条件下依然表现优异。
Activation functions play an important role in training artificial neural networks. The majority of currently used activation functions are deterministic in nature, with their fixed input-output relationship. In this work, we propose a novel probabilistic activation function, called ProbAct. ProbAct is decomposed into a mean and variance and the output value is sampled from the formed distribution, making ProbAct a stochastic activation function. The values of mean and variances can be fixed using known functions or trained for each element. In the trainable ProbAct, the mean and the variance of the activation distribution is trained within the back-propagation framework alongside other parameters. We show that the stochastic perturbation induced through ProbAct acts as a viable generalization technique for feature augmentation. In our experiments, we compare ProbAct with well-known activation functions on classification tasks on different modalities: Images(CIFAR-10, CIFAR-100, and STL-10) and Text (Large Movie Review). We show that ProbAct increases the classification accuracy by +2-3% compared to ReLU or other conventional activation functions on both original datasets and when datasets are reduced to 50% and 25% of the original size. Finally, we show that ProbAct learns an ensemble of models by itself that can be used to estimate the uncertainties associated with the prediction and provides robustness to noisy inputs.
研究动机与目标
- 为解决深度神经网络中确定性激活函数的局限性,提出受生物神经噪声启发的随机性。
- 提升模型泛化能力与抗过拟合能力,尤其在低数据量场景及噪声输入下。
- 通过随机激活输出实现不确定性估计与隐式模型集成学习。
- 设计一种可微分、可反向传播的激活函数,集成可学习的均值与方差参数。
- 在不同模态(图像与文本)上,于标准基准测试中评估ProbAct在各种数据与噪声条件下的表现。
提出的方法
- ProbAct通过从每个神经元可学习均值与方差的高斯分布中采样,定义随机激活。
- 均值与方差可通过已知函数固定,或与网络权重一起通过反向传播端到端训练。
- 随机采样应用于预激活值,引入噪声,起到特征增强的作用。
- 该方法支持隐式模型集成学习,多次随机前向传播可产生多样化预测,用于不确定性估计。
- 通过重参数化计算随机输出的梯度,实现采样过程的反向传播。
- 评估了多种配置:单个、通道级与元素级可学习的均值与方差,权衡收敛速度与参数效率。
实验结果
研究问题
- RQ1与确定性激活函数相比,随机可训练激活函数是否能提升深度神经网络的泛化能力?
- RQ2ProbAct引入的随机性是否在数据稀缺或噪声环境下仍能有效作为正则化手段?
- RQ3ProbAct是否无需额外架构修改即可实现不确定性估计与对对抗性或噪声输入的鲁棒性?
- RQ4不同的参数化策略(如元素级与单个均值/方差)如何影响收敛性与性能?
- RQ5ProbAct在视觉与自然语言处理基准测试中,相较于ReLU及其他标准激活函数的性能优势有多大?
主要发现
- 在CIFAR-10、CIFAR-100与STL-10数据集上,ProbAct相较于ReLU及其他传统激活函数,分类准确率提升2–3%。
- 在Large Movie Review数据集上,ProbAct相较于ReLU实现1–2%的准确率增益,证明其在NLP任务中的有效性。
- 即使仅使用25%的训练数据,ProbAct仍保持优越性能,表明其在数据稀缺条件下的强泛化能力。
- ProbAct引入的随机扰动起到数据增强作用(激活增强型数据增强),减少过拟合并提升鲁棒性。
- ProbAct支持隐式模型集成学习,通过多次使用不同采样结果的前向传播,实现不确定性估计。
- 当方差固定为2时,ProbAct的测试准确率与使用Dropout的ReLU相当,两者结合时性能进一步提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。