[论文解读] Noisy Activation Functions
本文提出了一种噪声激活函数,在训练过程中向饱和非线性函数(如 sigmoid、tanh)中注入受控噪声,以改善梯度流动和优化效果,尤其在硬饱和区域表现更优。通过随时间逐渐降低噪声水平,该方法使随机梯度下降能够更有效地探索参数空间,从而在图像字幕生成、序列建模和神经图灵机等任务上取得当前最优或具有竞争力的性能,且收敛性与泛化能力更优。
Common nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla-SGD (using first order gradients only). Gating mechanisms that use softly saturating activation functions to emulate the discrete switching of digital logic circuits are good examples of this. We propose to exploit the injection of appropriate noise so that the gradients may flow easily, even if the noiseless application of the activation function would yield zero gradient. Large noise will dominate the noise-free gradient and allow stochastic gradient descent toexplore more. By adding noise only to the problematic parts of the activation function, we allow the optimization procedure to explore the boundary between the degenerate (saturating) and the well-behaved parts of the activation function. We also establish connections to simulated annealing, when the amount of noise is annealed down, making it easier to optimize hard objective functions. We find experimentally that replacing such saturating activation functions by noisy variants helps training in many contexts, yielding state-of-the-art or competitive results on different datasets and task, especially when training seems to be the most difficult, e.g., when curriculum learning is necessary to obtain good results.
研究动机与目标
- 解决如 sigmoid 和 tanh 等硬饱和激活函数带来的梯度消失问题,此类问题会阻碍深度网络的训练。
- 克服软饱和非线性函数在门控机制(如 LSTM、GRU)中的局限性,避免因梯度泄漏导致无法实现真正的开启/关闭决策。
- 在测试阶段使用硬饱和非线性函数以提升表征能力,同时通过噪声注入维持训练稳定性。
- 形式化一种类似延续法的优化方法,通过噪声退火提升困难训练场景下的收敛性与泛化能力。
提出的方法
- 在激活函数的饱和区域(即梯度消失区域,亦即 |x| 较大时)向输出注入噪声,以在反向传播过程中维持非零梯度流动。
- 使用可学习的噪声尺度参数,控制注入噪声的标准差,使模型能够在训练过程中自适应调整噪声水平。
- 仅对激活函数中存在问题的(饱和的)区域施加噪声,同时保留非线性结构,从而实现有效探索。
- 使用如 $ c / \sqrt{t+1} $ 的调度策略随时间逐渐降低噪声水平,模拟退火过程,实现从探索到利用的过渡。
- 在测试阶段,将噪声激活替换为确定性期望值,从而在门控单元中实现真正的 0 或 1 决策,避免梯度问题。
- 将噪声激活作为即插即用的替代模块集成到现有架构(如 LSTM、GRU、NTM)中,无需修改网络结构,便于部署。
实验结果
研究问题
- RQ1在深度网络中,向饱和激活函数注入噪声是否能提升具有硬门控机制的网络的训练稳定性和性能?
- RQ2在饱和区域注入噪声是否能增强梯度流动,防止优化过程陷入较差的局部极小值?
- RQ3噪声退火能否作为一种有效的延续法,用于训练深度网络,特别是在需要课程学习的场景中?
- RQ4在具有挑战性的基准测试中,噪声激活函数是否在测试准确率和泛化能力方面优于标准 sigmoid/tanh 及 ReLU 模型?
主要发现
- 在 Penn Treebank 语言建模任务中,噪声激活函数显著优于标准 sigmoid 和 tanh 单元,达到竞争性或当前最优结果。
- 在图像字幕生成任务中,采用噪声激活的模型取得了 28.9 的 Meteor 分数,超过基线参考模型,并优于 Xu 等人(2015)的最佳模型,且未使用 dropout。
- 在唯一元素预测任务中,采用噪声退火的模型测试误差为 9.53%,优于课程学习方法(14.83%)和基线模型(33.28%)。
- 在神经图灵机关联回忆任务中,采用噪声激活的 NTM 收敛更快且成功完成任务,而标准 NTM 未能达到低误差。
- 添加 dropout 进一步提升了性能,但主要增益来自噪声激活机制本身,因为即使不使用 dropout 的版本也优于基线模型。
- 噪声水平的退火实现了类似延续法的优化过程,提升了泛化能力,并使得此前难以优化的模型(如具有分段线性激活函数的门控 RNN)得以成功训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。