Skip to main content
QUICK REVIEW

[论文解读] Meta-Consolidation for Continual Learning

K J Joseph, Vineeth N Balasubramanian|arXiv (Cornell University)|Oct 1, 2020
Domain Adaptation and Few-Shot Learning参考文献 87被引用 27
一句话总结

MERLIN 提出了一种新颖的元整合(meta-consolidation)框架,用于在线持续学习,通过将神经网络权重建模为在潜在空间上由任务条件元分布生成,该元分布通过带有任务特定先验的变分自编码器(VAE)学习。它在五个基准测试(MNIST、CIFAR-10、CIFAR-100、Mini-ImageNet)中实现了最先进性能,相较于 GSS、GEM、iCaRL 和 EWC 等基线方法持续取得显著提升,同时支持模型集成与可扩展性,且无灾难性遗忘。

ABSTRACT

The ability to continuously learn and adapt itself to new tasks, without losing grasp of already acquired knowledge is a hallmark of biological learning systems, which current deep learning systems fall short of. In this work, we present a novel methodology for continual learning called MERLIN: Meta-Consolidation for Continual Learning. We assume that weights of a neural network $\boldsymbol ψ$, for solving task $\boldsymbol t$, come from a meta-distribution $p(\boldsymbol{ψ|t})$. This meta-distribution is learned and consolidated incrementally. We operate in the challenging online continual learning setting, where a data point is seen by the model only once. Our experiments with continual learning benchmarks of MNIST, CIFAR-10, CIFAR-100 and Mini-ImageNet datasets show consistent improvement over five baselines, including a recent state-of-the-art, corroborating the promise of MERLIN.

研究动机与目标

  • 通过将神经网络权重建模为任务条件元分布的样本,解决持续学习中的灾难性遗忘问题。
  • 实现在在线持续学习设置中,每个数据点仅被访问一次,避免对数据的多次遍历。
  • 开发一种可扩展方法,其模型大小不随任务数量增长,与重放或扩展方法不同。
  • 支持类别增量学习与领域增量学习,以及任务感知和任务无关的推理设置。
  • 通过从学习到的元分布中为每个任务采样多个权重,实现在推理阶段的模型集成。

提出的方法

  • MERLIN 将任务 t 的神经网络权重建模为来自元分布 p(ψ|t),该分布通过带有潜在空间的变分自编码器(VAE)学习,潜在空间表示元参数。
  • 它引入了针对潜在码 z 的任务特定可学习先验 pθ(z|t),这些先验在新任务到达时逐步更新,从而实现元整合。
  • VAE 编码器将特定任务分类器的权重向量压缩为潜在码 z,而解码器则重建权重,从而实现参数生成与持续学习。
  • 在推理阶段,从元分布中采样多个模型 ψt ∼ p(ψ|t) 并进行集成,以提升鲁棒性与准确性。
  • 该方法运行于在线持续学习设置中,数据仅被访问一次,并使用一个示例缓冲区(100–400 个样本)以保留知识。
  • 该架构具备可扩展性:推理时仅需任务特定先验和 VAE 解码器,且二者均不随任务数量增长。

实验结果

研究问题

  • RQ1通过潜在分布对模型参数的元空间进行学习,是否能相比权重空间或数据空间整合,提升持续学习性能?
  • RQ2在在线单次遍历设置下,潜在空间中的元整合与现有基于重放或正则化的持续学习方法相比表现如何?
  • RQ3所提出的方法是否无需架构或分布重训练,即可同时支持类别增量与领域增量学习?
  • RQ4从学习到的元分布中进行模型集成,在持续学习中能在多大程度上提升性能与鲁棒性?
  • RQ5随着任务数量的增加,该方法的可扩展性如何?是否保持高效性与低内存占用?

主要发现

  • MERLIN 在全部五个基准测试中均优于 GSS(最近的 SOTA 方法):Split MNIST、Permuted MNIST、Split CIFAR-10、Split CIFAR-100 和 Mini-ImageNet。
  • 在 Split MNIST 上,MERLIN 在块大小为 100 时达到 90.8% 的准确率,显著优于 GEM(77.4%)和 iCaRL(72.5%),且在内存大小为 100 时表现更优。
  • 当示例缓冲区大小为 2000 时,MERLIN 在 CIFAR-10 上达到 88.4% 的准确率,显著优于 GEM(80.5%)和 iCaRL(74.8%)的相同缓冲区大小。
  • 该方法展现出强大的可扩展性:元模型大小仅为 GSS、GEM、EWC 和 iCaRL 的 1/8,后者需存储完整模型权重或大量示例。
  • 消融研究显示,增加 VAE 编码的权重块大小会降低准确率,表明建模更大的权重块需要更复杂的 VAE 架构。
  • 性能随更大的示例缓冲区显著提升,且 MERLIN 比 GEM 或 iCaRL 更能从改进的示例选择中获益,表明其对内存的利用更高效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。