[论文解读] Recurrent Dropout Without Memory Loss
引入一种对循环神经网络的递归 dropout 方法,在带门控结构(LSTM/GRU)的更新向量上进行丢弃,而不丢失长期记忆,从而实现正则化效应,特别是在与前向 dropout 结合时效果显著。
This paper presents a novel approach to recurrent neural network (RNN) regularization. Differently from the widely adopted dropout method, which is applied to forward connections of feed-forward architectures or RNNs, we propose to drop neurons directly in recurrent connections in a way that does not cause loss of long-term memory. Our approach is as easy to implement and apply as the regular feed-forward dropout and we demonstrate its effectiveness for the most popular recurrent networks: vanilla RNNs, Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) networks. Our experiments on three NLP benchmarks show consistent improvements even when combined with conventional feed-forward dropout.
研究动机与目标
- 通过对循环连接进行正则化,激发并解决 RNNs 的过拟合问题,特别是 LSTMs/GRUs。
- 提出一种保持长期记忆的递归 dropout 技术。
- 将所 proposed 方法与现有的递归 dropout 方法进行比较。
- 在多数据集上对语言建模、命名实体识别(NER)和情感分析任务评估该方法。
- 考察采样方案(逐步 per-step 与逐序列 per-sequence)如何与递归 dropout 交互作用。
提出的方法
- 提出将 dropout 应用于循环更新而非隐藏状态,以在门控 RNNs 中避免记忆丢失。
- 在 LSTM/GRU 方程中对单元更新向量 g_t 进行 dropout 的公式化,同时保持记忆路径不变。
- 允许逐步的 dropout 掩码采样,并在各任务中与逐序列采样进行比较。
- 通过与先前的递归 dropout 方案(对隐藏状态或单元值进行丢弃)进行对比,展示保持记忆的 dropout。
- 研究与前向 dropout 的交互作用,并通过学习曲线分析收敛行为。
实验结果
研究问题
- RQ1如何在不破坏长期记忆的情况下,将 dropout 应用于 LSTMs/GRUs 的循环连接?
- RQ2递归 dropout 与 RNN 中标准前向 dropout 之间的关系是什么?
- RQ3在递归 dropout 中,掩码应逐步采样还是逐序列采样?这如何影响性能?
- RQ4递归 dropout 方法是否在语言建模、NER 和情感任务上提升泛化能力?
- RQ5对隐藏状态更新向量的丢弃与对隐藏状态本身的丢弃有何差异?
主要发现
- 将递归 dropout 应用于 LSTMs/GRUs 的隐藏状态更新向量可维持记忆并带来正则化效益。
- 逐步采样通常在有效性方面与逐序列采样相匹配或更优,针对所 proposed 方法。
- 将递归 dropout 与前向 dropout 结合,在若干 NLP 基准上提供额外的性能提升。
- 该方法在与前向 dropout 结合时提升语言建模的困惑度(perplexity)以及 NER 的 F1 分数,对 LSTMs 和 GRUs 特别有效。
- 对更新向量的 dropout 避免了在隐藏状态或单元值上出现的内存积累放大问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。