Skip to main content
QUICK REVIEW

[论文解读] Prototype Reminding for Continual Learning.

Mengmi Zhang, Tao Wang|arXiv (Cornell University)|May 23, 2019
Domain Adaptation and Few-Shot Learning参考文献 23被引用 11
一句话总结

本文提出变分原型回放(Variational Prototype Replays),一种少样本持续学习方法,利用由均值和方差参数化的变分原型来表示特定类别的知识,从而减少灾难性遗忘。通过仅存储每类一个样本以及先前任务的类别代表性原型,该方法在学习新任务时能高效回忆先前知识,且不会导致早期任务性能下降。

ABSTRACT

Continual learning refers to the ability to acquire and transfer knowledge without catastrophically forgetting what was previously learned. In this work, we consider \emph{few-shot} continual learning in classification tasks, and we propose a novel method, Variational Prototype Replays, that efficiently consolidates and recalls previous knowledge to avoid catastrophic forgetting. In each classification task, our method learns a set of variational prototypes with their means and variances, where embedding of the samples from the same class can be represented in a prototypical distribution and class-representative prototypes are separated apart. To alleviate catastrophic forgetting, our method replays one sample per class from previous tasks, and correspondingly matches newly predicted embeddings to their nearest class-representative prototypes stored from previous tasks. Compared with recent continual learning approaches, our method can readily adapt to new tasks with more classes without requiring the addition of new units. Furthermore, our method is more memory efficient since only class-representative prototypes with their means and variances, as well as only one sample per class from previous tasks need to be stored. Without tampering with the performance on initial tasks, our method learns novel concepts given a few training examples of each class in new tasks.

研究动机与目标

  • 为解决在新任务中每类仅引入少量样本的少样本持续学习场景下的灾难性遗忘问题。
  • 开发一种内存高效的方案,避免存储完整数据集或扩展模型容量。
  • 仅通过每类一个样本和类别代表性原型,实现从先前任务到新任务的有效知识迁移。
  • 在使用极少数样本学习新概念的同时,保持对初始任务的高性能。
  • 提供一种可扩展的持续学习解决方案,无需架构扩展或为新类别添加额外单元。

提出的方法

  • 该方法为每类学习变分原型,其由均值和方差参数化,以表示特定类别的嵌入分布。
  • 它仅存储来自先前任务的每类一个样本,以及相应的类别代表性原型。
  • 在新任务推理期间,模型将新预测的嵌入与先前任务中最近的原型进行匹配。
  • 该方法通过原型匹配实现对先前知识的回忆,从而在不重新训练旧数据的情况下减少遗忘。
  • 通过将新嵌入对齐到先前学习到的、已分离的原型,避免灾难性遗忘。
  • 当引入新类别时,该方法无需架构更改或添加新单元。

实验结果

研究问题

  • RQ1一种内存高效的方案是否能在不扩展架构的情况下减少少样本持续学习中的灾难性遗忘?
  • RQ2基于原型的知识回忆在新任务学习过程中多大程度上能保持对先前任务的性能?
  • RQ3仅从过去任务中存储每类一个样本,在多大程度上能维持模型的泛化能力和准确性?
  • RQ4与标准嵌入平均相比,通过学习均值和方差的变分原型是否能更好地表示类别分布?
  • RQ5该方法在持续任务流中随着类别数量增加时,其可扩展性如何?

主要发现

  • 该方法在仅使用每类少量样本学习新类别时,仍能保持对先前学习任务的高性能。
  • 仅通过每类一个样本和类别代表性原型,即可实现有效的知识整合,显著降低内存使用。
  • 该方法无需额外模型参数或架构修改,即可避免灾难性遗忘。
  • 原型匹配实现了对先前知识的准确回忆,提升了新任务上的泛化能力。
  • 该方法在面对更多类别的新任务时仍能有效扩展,且不会导致早期任务性能下降。
  • 使用变分原型可实现对类别分布的稳健表示,从而增强泛化能力和稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。