Skip to main content
QUICK REVIEW

[论文解读] Improving and Understanding Variational Continual Learning

Siddharth Swaroop, Cuong V. Nguyen|arXiv (Cornell University)|May 6, 2019
Domain Adaptation and Few-Shot Learning参考文献 20被引用 30
一句话总结

该论文通过改进均值场变分贝叶斯神经网络,优化了变分持续学习(VCL),在分割MNIST上实现95.5%的准确率,在置换MNIST上实现94.6%的准确率(使用核心集),达到当前最先进水平,同时揭示了不确定性估计与参数正则化如何缓解持续学习中的灾难性遗忘。

ABSTRACT

In the continual learning setting, tasks are encountered sequentially. The goal is to learn whilst i) avoiding catastrophic forgetting, ii) efficiently using model capacity, and iii) employing forward and backward transfer learning. In this paper, we explore how the Variational Continual Learning (VCL) framework achieves these desiderata on two benchmarks in continual learning: split MNIST and permuted MNIST. We first report significantly improved results on what was already a competitive approach. The improvements are achieved by establishing a new best practice approach to mean-field variational Bayesian neural networks. We then look at the solutions in detail. This allows us to obtain an understanding of why VCL performs as it does, and we compare the solution to what an `ideal' continual learning solution might be.

研究动机与目标

  • 在标准持续学习基准测试(特别是分割MNIST和置换MNIST)上提升变分持续学习(VCL)的性能。
  • 理解VCL如何通过不确定性估计与参数正则化机制避免灾难性遗忘。
  • 评估引入核心集(回放记忆)对VCL性能与泛化能力的影响。
  • 分析模型容量使用、前向/后向迁移能力,以及均值场变分推断在持续学习中的作用。
  • 确立在持续学习设置下训练均值场变分贝叶斯神经网络的新最佳实践。

提出的方法

  • 使用均值场变分推断,在每个任务后近似网络权重的后验分布,同时保持不确定性估计。
  • 将前一任务的后验分布设为下一任务的先验分布,实现通过贝叶斯正则化持续更新参数。
  • 应用随机梯度下降优化每个新任务的变分下界(ELBO),更新近似后验分布。
  • 引入过去数据的核心集以提升泛化能力并减少遗忘,有效修改训练调度策略。
  • 采用两层前馈神经网络,激活函数为ReLU,输出层为Softmax,用于图像分类。
  • 通过权重图、活跃单元数量及前向/后向迁移指标分析模型行为,评估学习动态。

实验结果

研究问题

  • RQ1改进的均值场变分推断在分割MNIST和置换MNIST上如何提升VCL性能?
  • RQ2VCL在多大程度上实现了前向与后向迁移?其表现与理想持续学习行为相比如何?
  • RQ3核心集的使用如何影响VCL中的遗忘与性能?其对参数不确定性有何影响?
  • RQ4从权重与活跃单元动态中可获得哪些关于VCL中模型容量使用与参数正则化作用的洞见?
  • RQ5为何均值场变分推断在VCL中产生类似剪枝的效果?这与遗忘缓解有何关联?

主要发现

  • 改进后的VCL方法在10个任务的分割MNIST上实现了95.5%的最终平均测试准确率,显著优于原始VCL(90%),并创下新的最先进水平。
  • 在使用200个随机样本的核心集时,VCL在置换MNIST上达到94.6%的准确率,优于原始VCL(93%)及类似容量下的EWC和SI等先前方法。
  • 活跃单元数量与权重幅值分布在整个任务过程中保持稳定,表明模型容量使用一致,无显著过拟合。
  • 该方法对灾难性遗忘表现出极强的鲁棒性,学习新任务后对早期任务的性能下降极小。
  • 核心集的使用通过强化先前任务的表征,减少了遗忘,表明数据回放可增强基于不确定性的正则化。
  • 均值场变分近似自然产生剪枝效应,使不重要的参数被抑制,与持续学习的理想特性高度一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。