[论文解读] Regularizing RNNs by Stabilizing Activations
本文提出了一种名为范数稳定器(norm-stabilizer)的新正则化方法,通过惩罚循环神经网络(RNN)中连续隐藏状态范数的平方差来提升训练稳定性和泛化能力。该方法在字符级语言建模和音素识别任务中显著提升性能,在TIMIT数据集上实现了18.6%的词错误率(PER),无需使用束搜索(beam search),达到当前最优水平;同时使IRNN能够泛化到远超训练序列长度的更长序列,有效防止激活值爆炸。
We stabilize the activations of Recurrent Neural Networks (RNNs) by penalizing the squared distance between successive hidden states' norms. This penalty term is an effective regularizer for RNNs including LSTMs and IRNNs, improving performance on character-level language modeling and phoneme recognition, and outperforming weight noise and dropout. We achieve competitive performance (18.6\% PER) on the TIMIT phoneme recognition task for RNNs evaluated without beam search or an RNN transducer. With this penalty term, IRNN can achieve similar performance to LSTM on language modeling, although adding the penalty term to the LSTM results in superior performance. Our penalty term also prevents the exponential growth of IRNN's activations outside of their training horizon, allowing them to generalize to much longer sequences.
研究动机与目标
- 为解决RNN中激活值爆炸或消失的问题,特别是当模型需泛化到超过训练序列长度的更长序列时。
- 通过鼓励隐藏状态范数随时间保持稳定,提升RNN(尤其是IRNN和LSTM)的泛化能力与训练稳定性。
- 开发一种显式针对激活范数稳定性而非仅梯度方向或逐元素裁剪的正则化方法。
- 探究范数稳定性是否可作为强归纳偏置,在多种序列建模任务中提升性能。
提出的方法
- 提出一种新型正则化方法——范数稳定器,定义为 $\beta \frac{1}{T} \sum_{t=1}^{T} (\|h_t\|_2 - \|h_{t-1}\|_2)^2$,用于惩罚隐藏状态在时间步上的L2范数变化。
- 将范数稳定器应用于IRNN和LSTM模型,并通过消融实验分析是否应对记忆单元或隐藏状态进行正则化。
- 采用随机梯度下降配合学习率调度与梯度裁剪,并在出现NaN值时重启训练。
- 通过网格搜索对超参数(包括 $\beta$、学习率和梯度裁剪阈值)进行调优以获得最佳性能。
- 分析正则化对激活分布、遗忘门行为以及隐藏转移矩阵特征值谱的影响。
- 将范数稳定器与权重噪声、Dropout及基于范数的正则化(如初始/最终范数或时间一致性正则)等替代方法进行对比。
实验结果
研究问题
- RQ1对隐藏状态范数进行正则化是否能提升RNN的泛化能力,尤其是在超过训练序列长度的场景下?
- RQ2范数稳定化是否优于现有的正则化技术(如Dropout、权重噪声或梯度裁剪)?
- RQ3为何范数稳定器对IRNN和LSTM有效,但对tanh-RNN无效?
- RQ4范数稳定化如何影响遗忘门的分布以及隐藏转移矩阵的特征值分布?
- RQ5范数稳定化的IRNN是否能泛化到远超未正则化IRNN的更长序列?
主要发现
- 范数稳定器显著降低了LSTM和IRNN中隐藏状态范数的均值与方差,当 $\beta = 500$ 时效果最佳。
- 加入范数稳定器的IRNN在长达10,000个时间步内保持稳定性能与激活范数,而未正则化的IRNN在训练期内即出现激活值指数级增长。
- 在TIMIT音素识别任务中,范数稳定化的RNN实现了18.6%的词错误率,无需束搜索或RNN转导器架构,达到当前最优性能。
- 范数稳定器提升了IRNN和LSTM的验证性能,但对tanh-RNN无效,表明其在易受激活不稳定影响的模型中效果更显著。
- 正则化的IRNN展现出特征值分布向更大绝对值偏移,表明其更偏好稳定而非正交的动态行为,而非依赖正交转移。
- 范数稳定器使隐藏单元的激活分布更加集中,LSTM中的遗忘门分布更加尖锐,表明其具有选择性且稳定的长期信息保留机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。