QUICK REVIEW

[论文解读] Recurrent Neural Network Regularization

Wojciech Zaremba, Ilya Sutskever|arXiv (Cornell University)|Sep 8, 2014

Neural Networks and Applications参考文献 32被引用 2,276

一句话总结

本论文介绍了一种针对 LSTMs 的基于 dropout 的正则化方法，该方法仅对非循环连接应用 dropout，在语言模型、语音识别、翻译和图像描述任务中显著减少过拟合。

ABSTRACT

We present a simple regularization technique for Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units. Dropout, the most successful technique for regularizing neural networks, does not work well with RNNs and LSTMs. In this paper, we show how to correctly apply dropout to LSTMs, and show that it substantially reduces overfitting on a variety of tasks. These tasks include language modeling, speech recognition, image caption generation, and machine translation.

研究动机与目标

动机：在循环网络中需要正则化以防止过拟合。
提出一种 dropout 方案，通过不对循环连接应用 dropout 来避免损害 LSTM 的记忆能力。
在多个领域（语言建模、语音识别、机器翻译、图像描述生成）上证明该方法的有效性。
提供实用指南（dropout 概率）并报告相对于非正则化基线的经验增益。

提出的方法

仅在基于 LSTM 的 RNN 中对非循环连接应用 dropout。
在输入—隐藏路径上使用 dropout 运算符 D，同时保持循环连接不变。
用标准门控（i、f、o、g）描述 LSTM 的动态，并展示 dropout 如何整合到输入路径： [i f o g] = [sigm sigm sigm tanh] T_{2n,4n} [D(h^{l-1}_{t}); h^{l}_{t-1}].
通过不对循环连接应用 dropout 来维持长期记忆，确保信息可以跨越许多时间步流动。
提供两种实验配置：中等（每层 650 单位，50% dropout）和大型（每层 1500 单位，65% dropout）。
报告训练细节（训练轮数、学习率计划、梯度裁剪）并与非正则化基线进行比较。

实验结果

研究问题

RQ1仅对非循环连接应用 dropout 是否能够在提供正则化收益的同时保持 LSTM 的记忆能力？
RQ2LSTM dropout 如何影响在语言建模、语音识别、机器翻译和图像标题生成等领域的性能？
RQ3对于中等和大型 LSTM 配置，哪些 dropout 率能够获得最佳泛化？

主要发现

在 PTB 的语言建模中，中等正则化 LSTM 达到 86.2（验证）和 82.7（测试）困惑度；大型正则化 LSTM 分别达到 82.2（验证）和 78.4（测试）。
+14–18 点相对于非正则化基线的提升，视模型大小而定。
在语音识别（冰岛语数据集）中，正则化的 LSTM 将验证帧准确率提高到 70.5，从 68.9（训练准确率降至 69.4）。
在机器翻译（英→法，WMT’14）中，正则化的 LSTM 达到困惑度 5.0 和 BLEU 29.03，优于非正则化的 LSTM（困惑度 5.8，BLEU 25.9）。
在图像描述生成（MSCOCO）中，正则化模型的困惑度为 7.99、BLEU 为 24.3，而非正则化为 8.47 与 23.5；对 10 个非正则化模型的集成获得了可比较的增益（BLEU 24.4）。
总体而言，在循环连接上放弃 dropout 在多种 RNN 任务中提供了显著的正则化收益，同时不牺牲 LSTM 的记忆能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。