[论文解读] Quasi-Recurrent Neural Networks
QRNNs 将并行卷积计算与轻量级循环池化相结合,以建模序列,从而在语言任务上实现更快的训练/推理速度,并且在准确性方面与 LSTM 相当或更好。
Recurrent neural networks are a powerful tool for modeling sequential data, but the dependence of each timestep's computation on the previous timestep's output limits parallelism and makes RNNs unwieldy for very long sequences. We introduce quasi-recurrent neural networks (QRNNs), an approach to neural sequence modeling that alternates convolutional layers, which apply in parallel across timesteps, and a minimalist recurrent pooling function that applies in parallel across channels. Despite lacking trainable recurrent layers, stacked QRNNs have better predictive accuracy than stacked LSTMs of the same hidden size. Due to their increased parallelism, they are up to 16 times faster at train and test time. Experiments on language modeling, sentiment classification, and character-level neural machine translation demonstrate these advantages and underline the viability of QRNNs as a basic building block for a variety of sequence tasks.
研究动机与目标
- 激发并解决传统 RNN 在处理长序列时的有限并行性。
- 提出交替使用卷积层和最小池化机制的 QRNN 架构。
- 证明 QRNN 在多任务上可实现比 LSTM 更好或相当的准确性,同时显著提升速度。
- 探索变体和扩展,如密集连接、注意力机制和编码器–解码器结构。
- 在情感分析、语言建模和字符级机器翻译上展示实证增益。
提出的方法
- 将 QRNN 层表示为通过掩蔽卷积产生 Z、F、O 的卷积组件:Z = tanh(W_z * X),F = sigmoid(W_f * X),O = sigmoid(W_o * X)。
- 使用由门控 (f, o, i) 控制的无参数池化函数,在通道维并行的情况下在时间步之间传递状态。
- 堆叠多个 QRNN 层以增加容量并实现更深的模型。
- 通过正则化(在池化门上的 zoneout)、密集连接(类似 DenseNet 的跳跃连接)以及用于序列到序列任务的编码器–解码器注意力进行扩展。
- 结合编码器–解码器的修改,将编码器状态注入解码器 QRNN 门并将注意力用作上下文。
- 使用像 f-pooling、fo-pooling 以及 ifo-pooling 这样的变体来控制跨通道的池化动态。
实验结果
研究问题
- RQ1QRNNs 能否在不牺牲序列顺序信息的情况下,在时间步和通道之间实现并行计算?
- RQ2在语言建模、情感分析和翻译方面,QRNNs 与 LSTMs 在准确性方面的表现如何?
- RQ3结构扩展(密集连接、注意力以及编码器–解码器配置)是否提升 QRNN 在序列任务上的表现?
- RQ4在不同数据集和序列长度下,与优化的 LSTMs 相比,QRNN 的训练和推理加速幅度是多少?
主要发现
| 模型 | Time / Epoch (s) | Test Acc (%) |
|---|---|---|
| NBSVM-bi (Wang & Manning, 2012) | — | 91.2 |
| 2 layer sequential BoW CNN (Johnson & Zhang, 2014) | — | 92.3 |
| Ensemble of RNNs and NB-SVM (Mesnil et al., 2014) | — | 92.6 |
| 2-layer LSTM (Longpre et al., 2016) | — | 87.6 |
| Residual 2-layer bi-LSTM (Longpre et al., 2016) | — | 90.1 |
| Densely-connected 4-layer LSTM (cuDNN optimized) | 480 | 90.9 |
| Densely-connected 4-layer QRNN | 150 | 91.4 |
| Densely-connected 4-layer QRNN with k=4 | 160 | 91.1 |
- 在 IMDb 情感分类、 Penn Treebank 语言建模,以及字符级德英翻译上,QRNNs 的表现优于相同隐藏层大小的 LSTMs。
- 由于并行性增强,QRNNs 在某些设置下提供可观的加速,在训练和测试时最高可达到 16 倍。
- 在 IMDb 上,密集连接的 4 层 QRNN,在4层256单元下达到 91.4% 的测试准确率。
- 在 PTB 语言建模上,QRNN(中等容量)取得的困惑度与 LSTMs 相当,尤其是在使用 zoneout 正则化时。
- 用于 IWSLT 德英翻译的字符级 QRNN 在训练时间为 1.0 小时/轮时,BLEU 为 19.41,优于同等规模的字符级 LSTM。
- 由于独立的通道池化,QRNN 能保持可解释的通道级状态,便于分析和调试。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。