QUICK REVIEW

[论文解读] Reversible Recurrent Neural Networks

Matthew Mackay, Paul Vicol|arXiv (Cornell University)|Oct 25, 2018

Neural Networks and Applications被引用 21

一句话总结

本文提出可逆循环神经网络（RNNs），通过重建隐藏状态而非存储它们来减少训练期间的内存使用，仅使用少量比特即可实现完美逆向恢复，同时保留信息。该方法在RNN中实现10–15倍的内存减少，在基于注意力的序列到序列模型中实现5–15倍的内存减少，且在语言建模和机器翻译任务上的性能与标准模型相当。

ABSTRACT

Recurrent neural networks (RNNs) provide state-of-the-art performance in processing sequential data but are memory intensive to train, limiting the flexibility of RNN models which can be trained. Reversible RNNs---RNNs for which the hidden-to-hidden transition can be reversed---offer a path to reduce the memory requirements of training, as hidden states need not be stored and instead can be recomputed during backpropagation. We first show that perfectly reversible RNNs, which require no storage of the hidden activations, are fundamentally limited because they cannot forget information from their hidden state. We then provide a scheme for storing a small number of bits in order to allow perfect reversal with forgetting. Our method achieves comparable performance to traditional models while reducing the activation memory cost by a factor of 10--15. We extend our technique to attention-based sequence-to-sequence models, where it maintains performance while reducing activation memory cost by a factor of 5--10 in the encoder, and a factor of 10--15 in the decoder.

研究动机与目标

解决训练循环神经网络（RNNs）时高昂的内存成本，特别是由于反向传播期间存储隐藏激活引起的成本。
克服完全可逆RNN的根本限制：无法遗忘信息，因此在基本序列任务中失败。
开发一种内存高效的RNN架构，支持完美逆向恢复，同时通过最小量的比特存储实现信息遗忘。
将可逆RNN框架扩展至基于注意力的序列到序列模型，在保持性能的同时减少激活内存。
在语言建模和神经机器翻译基准测试中展示具有显著内存节省的竞争力性能。

提出的方法

通过使用耦合机制将隐藏状态到隐藏状态的转移修改为可逆形式，设计GRU和LSTM的可逆变体。
引入少量存储比特（每单元1–5比特），以在需要遗忘信息的模型中实现完美逆向恢复。
采用受RevNet启发的可逆块结构，其中在反向传播期间使用残差函数重建隐藏状态。
通过在固定大小的隐藏状态片段（例如20–60维）上应用注意力机制，并将其与词嵌入拼接，以减少注意力机制中的内存占用。
在反向传播期间使用前向变换的逆变换重建隐藏状态，避免存储中间激活值。
通过接受因重建导致算术运算量增加33%的代价，平衡内存节省与计算成本。

实验结果

研究问题

RQ1完全可逆且不存储任何隐藏激活的RNN能否解决需要记忆过去输入的基本序列预测任务？
RQ2在引入少量比特以实现支持遗忘的可逆RNN时，内存效率与模型表达能力之间的权衡如何？
RQ3可逆RNN能否在语言建模和神经机器翻译任务上实现与标准RNN相当的性能？
RQ4如何在不牺牲注意力有效性的情况下将可逆RNN框架扩展至基于注意力的序列到序列模型？
RQ5在序列到序列模型的编码器和解码器组件中，使用可逆架构可实现多大程度的内存减少？

主要发现

完全可逆RNN在简单的一步预测任务中失败，因为其无法遗忘信息，揭示了根本性局限。
通过每单元存储1–5比特，所提方法实现了完美逆向恢复，同时支持遗忘，使模型能够解决需要记忆过去输入的任务。
在Penn TreeBank数据集上，可逆GRU和LSTM模型的困惑度与标准模型相差2–5点，内存减少10–15倍。
在WikiText-2数据集上，可逆模型的困惑度比标准模型落后2–5点，但仍实现10–15倍的内存节省。
在序列到序列模型中，可逆RNN在编码器中将激活内存减少5–10倍，在解码器中减少10–15倍，且在Multi30K和IWSLT 2016基准测试中表现具有竞争力。
当注意力计算基于与词嵌入拼接的固定大小隐藏状态片段（如20–60维）时，该方法保持性能，实现内存效率提升且无显著准确率损失。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。