QUICK REVIEW

[论文解读] Gradient Episodic Memory for Continual Learning

David López-Paz, Marc’Aurelio Ranzato|arXiv (Cornell University)|Jun 26, 2017

Domain Adaptation and Few-Shot Learning参考文献 5被引用 497

一句话总结

GEM 引入一种基于情节记忆的持续学习方法，减少遗忘并在任务之间实现有益的知识转移，在 MNIST 和 CIFAR-100 的变体上表现出色。

ABSTRACT

One major obstacle towards AI is the poor ability of models to solve new problems quicker, and without forgetting previously acquired knowledge. To better understand this issue, we study the problem of continual learning, where the model observes, once and one by one, examples concerning a sequence of tasks. First, we propose a set of metrics to evaluate models learning over a continuum of data. These metrics characterize models not only by their test accuracy, but also in terms of their ability to transfer knowledge across tasks. Second, we propose a model for continual learning, called Gradient Episodic Memory (GEM) that alleviates forgetting, while allowing beneficial transfer of knowledge to previous tasks. Our experiments on variants of the MNIST and CIFAR-100 datasets demonstrate the strong performance of GEM when compared to the state-of-the-art.

研究动机与目标

用一系列任务和非独立同分布的数据观测来形式化持续学习。
引入遗忘（向后传递）和前向传递的度量，以及平均准确率。
提出 Gradient Episodic Memory (GEM)，在最小化遗忘的同时允许正向的向后传递。
在 MNIST 置换、MNIST 旋转以及增量 CIFAR-100 上对比最先进的基线方法来评估 GEM。

提出的方法

为每个任务维护一个带有固定预算的情节记忆，用于存储具有代表性的样本。
将学习表述为在对过去任务损失施加不等约束的前提下，最小化当前损失。
将约束转化为一个二次规划并求其对偶以获得投影梯度更新。
通过不对过去任务的预测进行蒸馏，仅约束其损失不增加，从而实现正向的向后传递。
提供一个通过投影梯度更新参数的算法，以避免增加过去任务的损失。

实验结果

研究问题

RQ1如何将持续学习形式化以捕捉非独立同分布的数据流和任务转换？
RQ2情节记忆和梯度投影能否在防止遗忘的同时实现跨任务的迁移？
RQ3在 GEM 中，内存大小和任务顺序对遗忘和迁移有何影响？
RQ4在标准持续学习基准上，GEM 与正则化和基于记忆的基线相比如何？

主要发现

与最先进的基线相比，GEM 在各任务上的平均准确率达到相当或更高。
GEM 将向后传递（遗忘）降到最小，且表现出可忽略或正向的向前传递。
通过将优化问题的变量数量从参数数量减少到等于任务数量来提高扩展性。
GEM 在 CIFAR-100 上遗忘极少，且实验中呈现出有利的向后传递。
GEM 的性能在基准数据集上接近 iid 多任务训练的水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。