[论文解读] A Theoretically Grounded Application of Dropout in Recurrent Neural Networks
本文通过将dropout解释为贝叶斯神经网络中后验权重分布的变分推断,提出了一种理论基础坚实的循环神经网络(RNN)用dropout变体。通过在所有时间步(包括循环连接)应用相同的dropout掩码,该方法稳定了训练过程,减少了过拟合,并在单个模型上实现了Penn Treebank语言建模任务上73.4的新SOTA测试困惑度。
Recurrent neural networks (RNNs) stand at the forefront of many recent developments in deep learning. Yet a major difficulty with these models is their tendency to overfit, with dropout shown to fail when applied to recurrent layers. Recent results at the intersection of Bayesian modelling and deep learning offer a Bayesian interpretation of common deep learning techniques such as dropout. This grounding of dropout in approximate Bayesian inference suggests an extension of the theoretical results, offering insights into the use of dropout with RNN models. We apply this new variational inference based dropout technique in LSTM and GRU models, assessing it on language modelling and sentiment analysis tasks. The new approach outperforms existing techniques, and to the best of our knowledge improves on the single model state-of-the-art in language modelling with the Penn Treebank (73.4 test perplexity). This extends our arsenal of variational tools in deep learning.
研究动机与目标
- 为解决RNN中在训练数据有限时持续存在的过拟合问题。
- 解决标准dropout在长序列中因信号放大而长期失效的问题。
- 基于变分推断与贝叶斯深度学习原理,提供一种理论合理的RNN用dropout扩展方法。
- 在语言建模与情感分析任务上实证验证所提出方法的有效性。
- 证明在所有时间步(包括循环连接)应用一致的dropout可提升模型鲁棒性与性能。
提出的方法
- 将dropout解释为贝叶斯神经网络中网络权重后验分布的变分近似。
- 在所有时间步对输入、输出和循环连接应用相同的dropout掩码,与标准dropout在每个时间步使用独立掩码的做法不同。
- 将RNN建模为具有权重不确定性的概率模型,通过变分推断实现近似贝叶斯推断。
- 优化一个可计算的变分下界(ELBO),对应于所提出的dropout变体,从而支持端到端训练。
- 不仅在输入和输出层引入dropout,还在循环权重上应用dropout,并为嵌入层与循环层分别设置独立的dropout率。
- 在测试时使用蒙特卡洛dropout进行不确定性估计,提升泛化能力。
实验结果
研究问题
- RQ1当基于贝叶斯变分推断时,dropout是否能成功应用于RNN的循环层?
- RQ2标准dropout为何在RNN中失效?是否存在一种理论驱动的变体可克服这一失效?
- RQ3在所有时间步应用相同的dropout掩码是否能稳定RNN训练并减少过拟合?
- RQ4在嵌入层与循环层上采用不同的dropout率,如何共同影响模型性能与泛化能力?
- RQ5该方法是否能在Penn Treebank等标准NLP基准上实现SOTA性能?
主要发现
- 所提出的在时间步上保持一致dropout的变分RNN在单个模型上实现了Penn Treebank语言建模任务上73.4的新SOTA测试困惑度。
- 该方法在语言建模与情感分析任务中均优于标准RNN、朴素dropout变体及早停法。
- 过拟合显著减少,变分LSTM展现出稳定的收敛性与最低的测试误差,而标准模型则表现出测试误差的剧烈波动。
- 当循环层dropout率较高时,嵌入层dropout对防止过拟合至关重要,因为未正则化的嵌入层可能主导模型行为。
- 权重衰减在所提方法中依然有效且重要,这与标准dropout设置中常将其移除的做法形成对比。
- 变分GRU模型在鲁棒性与测试误差方面也优于标准模型与朴素dropout变体,证实了该方法在不同RNN架构上的普适性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。