Skip to main content
QUICK REVIEW

[论文解读] Learning Longer-term Dependencies in RNNs with Auxiliary Losses

Trieu H. Trinh, Andrew M. Dai|arXiv (Cornell University)|Mar 1, 2018
Topic Modeling参考文献 33被引用 87
一句话总结

本文介绍将无监督辅助损失添加到RNN(r-LSTM和p-LSTM)以重建或预测子序列,从而在截断的反向传播通过时间(BPTT)下实现更长的依赖学习并提高效率,在长序列上超越若干基线。

ABSTRACT

Despite recent advances in training recurrent neural networks (RNNs), capturing long-term dependencies in sequences remains a fundamental challenge. Most approaches use backpropagation through time (BPTT), which is difficult to scale to very long sequences. This paper proposes a simple method that improves the ability to capture long term dependencies in RNNs by adding an unsupervised auxiliary loss to the original objective. This auxiliary loss forces RNNs to either reconstruct previous events or predict next events in a sequence, making truncated backpropagation feasible for long sequences and also improving full BPTT. We evaluate our method on a variety of settings, including pixel-by-pixel image classification with sequence lengths up to 16\,000, and a real document classification benchmark. Our results highlight good performance and resource efficiency of this approach over competitive baselines, including other recurrent models and a comparable sized Transformer. Further analyses reveal beneficial effects of the auxiliary loss on optimization and regularization, as well as extreme cases where there is little to no backpropagation.

研究动机与目标

  • 解决通过时间反向传播(BPTT)在序列中学习长期依赖时面临的高内存成本挑战。
  • 提出在随机锚点重建过去子序列或预测未来子序列的辅助无监督损失。
  • 证明这些辅助损失在截断的BPTT下能实现有效训练,并提升优化与泛化。
  • 在非常长的序列任务(高达16,000步)上进行评估,并与递归基线和Transformer变体进行比较。

提出的方法

  • 在输入序列中引入随机锚点。
  • 添加一个重建辅助损失,从锚点重建过去的子序列。
  • 添加一个预测辅助损失,从锚点预测未来的子序列。
  • 分两阶段训练:对辅助损失进行无监督预训练,然后进行将主监督损失与辅助损失结合的半监督训练。
  • 使用截断的反向传播以在不同序列长度下保持BPTT成本恒定。
  • 在长序列上使用r-LSTM(重建)和p-LSTM(预测)进行评估,并与LSTM基线和Transformer进行比较。

实验结果

研究问题

  • RQ1在使用截断BPTT时,无监督的辅助损失是否能改善RNN对长程依赖的学习?
  • RQ2重建和预测辅助损失是否为长序列建模提供优化或正则化方面的好处?
  • RQ3在长序列基准测试中,r-LSTM和p-LSTM在准确性和效率方面与LSTMs和Transformers相比如何?
  • RQ4采样频率和子序列长度对辅助损失有效性有何影响?
  • RQ5这些方法在非常长的序列(高达16,000步)和不同数据领域(图像、文本)上的可扩展性如何?

主要发现

  • 辅助损失在截断的BPTT下实现了强劲性能,在多项任务中达到甚至接近全反向传播RNN的水平。
  • 在MNIST、pMNIST、CIFAR10和StanfordDogs的长序列任务中,r-LSTM和p-LSTM在截断条件下均优于完整训练的LSTM,并随着序列长度的增加显示出更好的可扩展性。
  • 对于长序列,r-LSTM和p-LSTM展现出显著的计算效率,在完全BPTT变得不可行时训练时间仍然可控。
  • 在DBpedia字符级分类中,配合截断BPTT的辅助损失优于LSTM及其他基线,包括SA-LSTM和LM-LSTM,具有显著优势。
  • 与Transformer基线相比,Transformers在较短序列上可能获得更高的准确性,但在较长序列上表现下降,而r-LSTM/p-LSTM保持鲁棒且内存高效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。