Skip to main content
QUICK REVIEW

[论文解读] Improved Schemes for Episodic Memory-based Lifelong Learning

Yunhui Guo, Mingrui Liu|arXiv (Cornell University)|Sep 25, 2019
Domain Adaptation and Few-Shot Learning参考文献 49被引用 27
一句话总结

本文提出了 MEGA-i 和 MEGA-ii 两种新型基于情景记忆的终身学习方法,通过引入自适应损失平衡和梯度旋转,统一并改进了 GEM 和 A-GEM。该方法显著减少了灾难性遗忘,在 Permuted MNIST 和 Split CIFAR-100 等标准基准上实现了高达 18% 的误差降低,达到当前最优性能。

ABSTRACT

Current deep neural networks can achieve remarkable performance on a single task. However, when the deep neural network is continually trained on a sequence of tasks, it seems to gradually forget the previous learned knowledge. This phenomenon is referred to as extit{catastrophic forgetting} and motivates the field called lifelong learning. Recently, episodic memory based approaches such as GEM \cite{lopez2017gradient} and A-GEM \cite{chaudhry2018efficient} have shown remarkable performance. In this paper, we provide the first unified view of episodic memory based approaches from an optimization's perspective. This view leads to two improved schemes for episodic memory based lifelong learning, called MEGA-I and MEGA-II. MEGA-I and MEGA-II modulate the balance between old tasks and the new task by integrating the current gradient with the gradient computed on the episodic memory. Notably, we show that GEM and A-GEM are degenerate cases of MEGA-I and MEGA-II which consistently put the same emphasis on the current task, regardless of how the loss changes over time. Our proposed schemes address this issue by using novel loss-balancing updating rules, which drastically improve the performance over GEM and A-GEM. Extensive experimental results show that the proposed schemes significantly advance the state-of-the-art on four commonly used lifelong learning benchmarks, reducing the error by up to 18\%.

研究动机与目标

  • 通过在单一优化框架下统一基于情景记忆的方法,解决持续学习中的灾难性遗忘问题。
  • 克服现有方法(如 GEM 和 A-GEM)的局限性,这些方法对当前任务始终施加固定强调,而不论损失动态如何。
  • 提出自适应方案,通过动态损失平衡和梯度调制,实现对旧任务和新任务学习的平衡。
  • 在标准终身学习基准上提升性能,特别是在每项任务数据量较少的情况下。
  • 为通过复合优化目标实现持续学习中更优的梯度更新,提供理论和实证基础。

提出的方法

  • 将终身学习建模为一个复合优化问题,同时包含当前任务和过去任务的目标。
  • 通过将当前任务梯度与情景记忆样本的梯度相结合,提出混合随机梯度(MEGA)。
  • 提出 MEGA-i,通过基于损失的自适应加权机制调节旧任务和新任务梯度之间的平衡。
  • 提出 MEGA-ii,通过基于情景记忆梯度和损失信息旋转当前梯度,进一步提升性能。
  • 采用损失平衡规则,根据模型损失随时间的变化程度,动态调整对旧任务的强调程度。
  • 使用一步随机梯度下降结合 MEGA 更新规则实现两种方案,支持在顺序任务上高效训练。

实验结果

研究问题

  • RQ1如何在单一优化框架下统一基于情景记忆的终身学习方法?
  • RQ2为何现有方法(如 GEM 和 A-GEM)在动态损失场景下表现不佳?其对当前任务的固定强调机制由何原因导致?
  • RQ3自适应损失平衡和梯度旋转能否提升持续学习中的泛化能力并减少遗忘?
  • RQ4MEGA-i 和 MEGA-ii 在不同基准上的准确率和鲁棒性与 GEM 和 A-GEM 相比如何?
  • RQ5每项任务样本数量有限时,对 MEGA-i 和 MEGA-ii 的性能有何影响?为何 MEGA-ii 在此类设置下表现优于 MEGA-i?

主要发现

  • 在 Permuted MNIST 上,MEGA-ii 的平均准确率达到 91.21% ± 0.10,相比之前最先进方法提升 2%。
  • 在 Split CIFAR-100 上,MEGA-ii 达到 66.12% ± 1.93 的准确率,相比先前最先进方法提升 5%。
  • 当每项任务的样本数量有限时,MEGA-ii 优于 MEGA-i,归因于其自适应梯度旋转和损失平衡机制。
  • 与基线方法相比,所提方法在四个标准终身学习基准上实现了最高达 18% 的误差降低。
  • MEGA-i 和 MEGA-ii 在所有数据集上均优于 A-GEM,且 MEGA-ii 即使在使用参考损失阈值时也表现出一致的性能提升。
  • 消融实验表明,梯度旋转和自适应损失平衡均对性能提升有显著贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。