QUICK REVIEW

[论文解读] Recurrent Dropout Without Memory Loss

Stanislau Semeniuta, Aliaksei Severyn|arXiv (Cornell University)|Mar 16, 2016

Advanced Neural Network Applications参考文献 23被引用 100

一句话总结

引入一种对循环神经网络的递归 dropout 方法，在带门控结构（LSTM/GRU）的更新向量上进行丢弃，而不丢失长期记忆，从而实现正则化效应，特别是在与前向 dropout 结合时效果显著。

ABSTRACT

This paper presents a novel approach to recurrent neural network (RNN) regularization. Differently from the widely adopted dropout method, which is applied to forward connections of feed-forward architectures or RNNs, we propose to drop neurons directly in recurrent connections in a way that does not cause loss of long-term memory. Our approach is as easy to implement and apply as the regular feed-forward dropout and we demonstrate its effectiveness for the most popular recurrent networks: vanilla RNNs, Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) networks. Our experiments on three NLP benchmarks show consistent improvements even when combined with conventional feed-forward dropout.

研究动机与目标

通过对循环连接进行正则化，激发并解决 RNNs 的过拟合问题，特别是 LSTMs/GRUs。
提出一种保持长期记忆的递归 dropout 技术。
将所 proposed 方法与现有的递归 dropout 方法进行比较。
在多数据集上对语言建模、命名实体识别（NER）和情感分析任务评估该方法。
考察采样方案（逐步 per-step 与逐序列 per-sequence）如何与递归 dropout 交互作用。

提出的方法

提出将 dropout 应用于循环更新而非隐藏状态，以在门控 RNNs 中避免记忆丢失。
在 LSTM/GRU 方程中对单元更新向量 g_t 进行 dropout 的公式化，同时保持记忆路径不变。
允许逐步的 dropout 掩码采样，并在各任务中与逐序列采样进行比较。
通过与先前的递归 dropout 方案（对隐藏状态或单元值进行丢弃）进行对比，展示保持记忆的 dropout。
研究与前向 dropout 的交互作用，并通过学习曲线分析收敛行为。

实验结果

研究问题

RQ1如何在不破坏长期记忆的情况下，将 dropout 应用于 LSTMs/GRUs 的循环连接？
RQ2递归 dropout 与 RNN 中标准前向 dropout 之间的关系是什么？
RQ3在递归 dropout 中，掩码应逐步采样还是逐序列采样？这如何影响性能？
RQ4递归 dropout 方法是否在语言建模、NER 和情感任务上提升泛化能力？
RQ5对隐藏状态更新向量的丢弃与对隐藏状态本身的丢弃有何差异？

主要发现

将递归 dropout 应用于 LSTMs/GRUs 的隐藏状态更新向量可维持记忆并带来正则化效益。
逐步采样通常在有效性方面与逐序列采样相匹配或更优，针对所 proposed 方法。
将递归 dropout 与前向 dropout 结合，在若干 NLP 基准上提供额外的性能提升。
该方法在与前向 dropout 结合时提升语言建模的困惑度（perplexity）以及 NER 的 F1 分数，对 LSTMs 和 GRUs 特别有效。
对更新向量的 dropout 避免了在隐藏状态或单元值上出现的内存积累放大问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。