QUICK REVIEW

[论文解读] Revisiting Activation Regularization for Language RNNs

Stephen Merity, Bryan McCann|arXiv (Cornell University)|Aug 3, 2017

Topic Modeling参考文献 20被引用 42

一句话总结

该论文重新审视了在RNN激活上应用$L_2$正则化（激活正则化，AR）和时间一致性正则化（TAR），以提升语言建模性能。在仅进行最小架构修改的情况下，AR与TAR在Penn Treebank和WikiText-2数据集上取得了当前最优结果，优于诸如变分dropout和定制RNN单元等复杂技术，同时与cuDNN LSTM等优化实现兼容。

ABSTRACT

Recurrent neural networks (RNNs) serve as a fundamental building block for many sequence tasks across natural language processing. Recent research has focused on recurrent dropout techniques or custom RNN cells in order to improve performance. Both of these can require substantial modifications to the machine learning model or to the underlying RNN configurations. We revisit traditional regularization techniques, specifically L2 regularization on RNN activations and slowness regularization over successive hidden states, to improve the performance of RNNs on the task of language modeling. Both of these techniques require minimal modification to existing RNN architectures and result in performance improvements comparable or superior to more complicated regularization techniques or custom cell architectures. These regularization techniques can be used without any modification on optimized LSTM implementations such as the NVIDIA cuDNN LSTM.

研究动机与目标

探究传统、轻量级正则化技术（如对激活的$L_2$正则化和时间一致性正则化）是否能在RNN语言建模中超越复杂的现代正则化方法。
评估AR与TAR是否可在不修改RNN单元架构或训练流程的前提下应用，从而实现与cuDNN等优化库的兼容。
证明AR与TAR在不同RNN架构（包括LSTM、GRU和$ anh$ RNN）上的通用性与鲁棒性。
展示AR与TAR在标准基准（如Penn Treebank和WikiText-2）上的显著性能提升，即使在对不同单元类型进行超参数调优后仍有效。

提出的方法

激活正则化（AR）对掩码后的RNN输出$m \odot h_t$施加$L_2$惩罚，其中$m$为dropout掩码，以鼓励小而稳定的激活。
时间激活正则化（TAR）对连续隐藏状态之间的差异施加$L_2$惩罚，即$\|h_t - h_{t+1}\|_2$，以促进时间平滑性。
正则化系数$\alpha$与$\beta$通过验证集性能进行调优，并在不同RNN单元类型间进行消融实验时进行参数迁移。
实验使用标准语言建模基准（PTB、WT2），采用参数共享嵌入和标准训练协议，对比启用与禁用AR/TAR的模型。
该方法应用于标准LSTM及其它RNN（GRU、$ anh$ RNN）以测试泛化性与鲁棒性。
与cuDNN LSTM等优化RNN库的兼容性得以保持，因为AR与TAR无需修改RNN单元或训练循环。

实验结果

研究问题

RQ1在RNN激活上应用简单$L_2$正则化（AR）和时间一致性正则化（TAR）是否能实现与变分dropout或定制RNN单元等复杂正则化技术相当或更优的性能？
RQ2当应用于不支持自定义单元修改的优化RNN实现（如cuDNN LSTM）时，AR与TAR是否仍保持有效性？
RQ3AR与TAR在不同RNN架构（包括GRU和$ anh$ RNN，后者传统上不用于语言建模）上的通用性如何？
RQ4在一种RNN单元（如LSTM）上确定的最优超参数$\alpha$与$\beta$是否可有效迁移至其他单元（如GRU、$ anh$ RNN）而无需重新调优？
RQ5TAR是否隐式促使RNN表现出类似恒等映射的行为，特别是在从随机初始化开始训练时？

主要发现

在Penn Treebank数据集上，AR与TAR将测试困惑度从667.5降低至227.8，相较于基线LSTM相对提升达66%。
在WikiText-2上，相同正则化使测试困惑度从117.5降至103.4，表明在更具挑战性、分布外的基准上也保持了稳定增益。
对于GRU，将LSTM中使用的相同$\alpha=5$、$\beta=2$值直接迁移应用，使困惑度从83.3降至81.1，证明了其在不同RNN架构上的可迁移性与有效性。
对于$ anh$ RNN，该模型在无AR与TAR时无法训练，而正则化使其成功收敛，表明TAR起到了隐式的恒等初始化约束作用。
AR与TAR在不同RNN类型上的改进表现稳健，表明这些技术不仅限于LSTM，还可泛化至其他序列模型。
AR与TAR可直接应用于cuDNN LSTM等优化RNN库，无需架构修改，同时保持训练速度与兼容性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。