QUICK REVIEW

[论文解读] How to Construct Deep Recurrent Neural Networks

Razvan Pascanu, Çaǧlar Gülçehre|arXiv (Cornell University)|Dec 20, 2013

Music and Audio Processing参考文献 41被引用 245

一句话总结

本文提出了两种新颖的深度循环神经网络（RNN）架构——深度转移RNN（DT(S)-RNN）和深度输出转移RNN（DOT(S)-RNN）——分别通过堆叠非线性层来加深隐藏状态到隐藏状态的转移函数和隐藏状态到输出的函数。实验结果表明，这些模型在五声音符音乐预测和词级别语言建模任务上优于传统的浅层RNN和堆叠RNN，在后者任务上实现了当前最优性能，且无需使用高级正则化技术。

ABSTRACT

In this paper, we explore different ways to extend a recurrent neural network (RNN) to a extit{deep} RNN. We start by arguing that the concept of depth in an RNN is not as clear as it is in feedforward neural networks. By carefully analyzing and understanding the architecture of an RNN, however, we find three points of an RNN which may be made deeper; (1) input-to-hidden function, (2) hidden-to-hidden transition and (3) hidden-to-output function. Based on this observation, we propose two novel architectures of a deep RNN which are orthogonal to an earlier attempt of stacking multiple recurrent layers to build a deep RNN (Schmidhuber, 1992; El Hihi and Bengio, 1996). We provide an alternative interpretation of these deep RNNs using a novel framework based on neural operators. The proposed deep RNNs are empirically evaluated on the tasks of polyphonic music prediction and language modeling. The experimental result supports our claim that the proposed deep RNNs benefit from the depth and outperform the conventional, shallow RNNs.

研究动机与目标

为解决循环神经网络（RNNs）中深度定义的模糊性，这与前馈网络中清晰的深度层次结构形成对比。
识别并加深标准RNN中的浅层组件，特别是隐藏状态到隐藏状态的转移函数与隐藏状态到输出的函数。
设计新型深层RNN架构，以增强表征能力，同时保持训练的可行性。
在序列建模任务上对所提模型进行实证评估，并与传统RNN和堆叠RNN进行比较。
探究更深的架构设计是否能提升语言建模和五声音符音乐预测等任务的性能。

提出的方法

提出DT(S)-RNN，其中隐藏状态到隐藏状态的转移函数被替换为深层前馈网络，从而实现分层的状态变换。
提出DOT(S)-RNN，其中输出函数被替换为深层前馈网络，从而实现从隐藏状态到输出的更深层次建模。
在两种架构中均采用捷径连接（残差连接），以缓解因深度增加而引发的梯度消失问题。
基于神经算子提出一种新框架，将所提出的深层RNN解释为时间上非线性算子的复合。
采用标准的时间反向传播进行训练，通过传统RNN或DT(S)-RNN进行预训练以稳定优化过程。
采用标准优化方法，如随机梯度下降，实验在Theano框架上使用字符级别和五声音符音乐数据集完成。

实验结果

研究问题

RQ1在RNN中，是否可以在堆叠循环层之外，以有意义的方式定义更深层次的结构，尤其是在其固有的时间展开深度背景下？
RQ2与浅层对应结构相比，更深的隐藏状态到隐藏状态转移或更深的输出函数是否能提升序列建模性能？
RQ3捷径连接是否能有效缓解在转移或输出函数中增加深度时带来的训练困难？
RQ4在语言建模和音乐预测任务中，所提出的深层RNN与传统RNN和堆叠RNN相比，性能如何？
RQ5深度带来的性能增益是否在不同类型的序列数据（如文本和音乐）中均具有鲁棒性？

主要发现

DOT(S)-RNN在词级别语言建模任务上达到了当前最优性能，优于传统RNN和堆叠RNN，且未使用高级正则化技术。
在五声音符音乐预测任务中，不同版本的深层RNN在各数据集上均取得了最佳性能，表明模型对任务的适配性。
在所有评估情形中，传统浅层RNN均被更深的架构所超越，证实了RNN中架构深度的有益性。
所提出的深层RNN表明，通过加深转移函数和输出函数，可以有意义地将深度扩展至堆叠循环层之外。
在DOT(S)-RNN中使用非饱和激活函数和Dropout显著提升了五声音符音乐预测的性能，表明其与现代前馈技术具有良好的兼容性。
训练深层RNN极具挑战性，尤其对DOT(S)-RNN和堆叠RNN而言，凸显了对更优优化策略和预训练方法的迫切需求。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。