Skip to main content
QUICK REVIEW

[论文解读] Episodic Memory in Lifelong Language Learning

Cyprien de Masson d’Autume, Sebastian Ruder|arXiv (Cornell University)|Jun 3, 2019
Topic Modeling被引用 99
一句话总结

本文提出一种带有稀疏经验回放和局部自适应的情景记忆模型,以实现从没有数据集标识符的数据流中进行终身语言学习,并在文本分类和问答任务上提高性能,同时降低内存使用。

ABSTRACT

We introduce a lifelong language learning setup where a model needs to learn from a stream of text examples without any dataset identifier. We propose an episodic memory model that performs sparse experience replay and local adaptation to mitigate catastrophic forgetting in this setup. Experiments on text classification and question answering demonstrate the complementary benefits of sparse experience replay and local adaptation to allow the model to continuously learn from new datasets. We also show that the space complexity of the episodic memory module can be reduced significantly (~50-90%) by randomly choosing which examples to store in memory with a minimal decrease in performance. We consider an episodic memory component as a crucial building block of general linguistic intelligence and see our model as a first step in that direction.

研究动机与目标

  • 推动数据来自多个数据集且无显式数据集边界的持续终身语言学习。
  • 引入一个情景记忆模块,在编码器–解码器语言模型中支持稀疏经验回放和局部自适应。
  • 证明基于记忆的方法能够缓解灾难性遗忘并在数据集之间实现正向迁移。
  • 在保持性能的同时,证明通过随机写入可以显著减少内存空间。
  • 在文本分类和问答任务中与基线以及最先进的持续学习方法进行比较。

提出的方法

  • 使用基于Transformer/BERT的示例编码器和一个单独的预训练键网络来生成记忆键。
  • 将每个看到的样本作为键–值对存储在双向情景记忆中(键来自记忆的键网络,值是输入–标签对)。
  • 通过定期对记忆进行抽样并用检索到的样本更新基础模型来执行稀疏经验回放。
  • 在推理时,通过从记忆中检索最近的K个邻居并简短地更新模型参数以改进当前预测来执行局部自适应。
  • 保持键网络固定以避免表征漂移,并通过随机选择来探索内存写入以控制空间复杂度。
  • 在文本分类和问答任务中,与 Enc-Dec、A-GEM、Replay、MbPA 变体以及多任务学习(MTL)进行比较。

实验结果

研究问题

  • RQ1带有稀疏回放和局部自适应的情景记忆是否能够支持来自数据流且无数据集身份的终身语言学习?
  • RQ2将稀疏经验回放与局部自适应相结合是否在文本分类和问答任务上超过单一组件基线?
  • RQ3内存使用(空间)如何影响性能,是否可以在几乎不影响性能的前提下降低内存?
  • RQ4在训练中使用固定的键网络与更新键对遗忘和迁移的影响有何不同?

主要发现

  • MbPA++(带稀疏回放的基于记忆的参数自适应)在文本分类和问答任务的持续学习基线中表现最强。
  • 以1%的回放率进行的稀疏经验回放在任务上取得了可衡量的收益,同时不将任务转换为完整的多任务学习。
  • 使用记忆最近邻的局部自适应在预测上显著优于随机邻居选择,凸显检索相关样本的重要性。
  • 固定的键网络可防止漂移,对稳定的基于记忆的自适应至关重要;在训练中更新键相对固定键 MbPA 变体会降低性能。
  • MbPA++缩小了与多任务学习(MTL)的差距,并在跨数据集的文本分类中显示出正向迁移(尽管QA仍落后于单数据集模型)。
  • 内存容量实验表明即使只有完整内存的10%也能获得可观的性能,且在一定范围内增加记忆邻居数量(K)通常会提升结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。