[论文解读] Generative replay with feedback connections as a general strategy for continual learning
该论文识别了三种持续学习场景,并展示生成再现结合蒸馏(以及其降低成本的 Replay-through-Feedback 变体)在各场景中优于正则化方法,尤其是在需要推断任务身份时。
A major obstacle to developing artificial intelligence applications capable of true lifelong learning is that artificial neural networks quickly or catastrophically forget previously learned tasks when trained on a new one. Numerous methods for alleviating catastrophic forgetting are currently being proposed, but differences in evaluation protocols make it difficult to directly compare their performance. To enable more meaningful comparisons, here we identified three distinct scenarios for continual learning based on whether task identity is known and, if it is not, whether it needs to be inferred. Performing the split and permuted MNIST task protocols according to each of these scenarios, we found that regularization-based approaches (e.g., elastic weight consolidation) failed when task identity needed to be inferred. In contrast, generative replay combined with distillation (i.e., using class probabilities as "soft targets") achieved superior performance in all three scenarios. Addressing the issue of efficiency, we reduced the computational cost of generative replay by integrating the generative model into the main model by equipping it with generative feedback or backward connections. This Replay-through-Feedback approach substantially shortened training time with no or negligible loss in performance. We believe this to be an important first step towards making the powerful technique of generative replay scalable to real-world continual learning applications.
研究动机与目标
- 基于测试时任务身份的可用性与推断需求,识别并形式化三种不同的持续学习场景。
- 在这些场景中比较基于正则化和基于回放的持续学习方法。
- 提出并评估一种成本高效的变体(Replay-through-Feedback),将生成融入主模型而非单独的生成器。
提出的方法
- 基于测试时任务身份可用性定义 Task-IL、Domain-IL 与 Class-IL 场景。
- 在 split MNIST 与 permuted MNIST 上评估正则化方法(EWC、Online EWC、SI)和回放方法(LwF、DGR、DGR+distill)。
- 与离线联合训练作为上界进行比较。
- 通过在主网络中嵌入生成模型并采用反馈连接与潜在层 z 的一层,引入 Replay-through-Feedback(RtF)。
- 对回放数据使用蒸馏目标(soft targets);当前与回放损失按迄今为止看到的任务数量进行加权。
- 在等效架构下演示 RtF 与 DGR+distill,并衡量训练时间与性能。
实验结果
研究问题
- RQ1在 Task-IL、Domain-IL 和 Class-IL 场景下,不同持续学习策略的表现如何?
- RQ2在这些场景中,带蒸馏的生成回放是否始终优于常规正则化?
- RQ3一种统一的、成本高效的架构(RtF)是否能在降低训练时间的同时达到或超过标准的生成回放性能?
主要发现
- 正则化方法(EWC、Online EWC、SI)在需要推断任务身份时(Class-IL)表现吃力。
- 基于回放的方法,使用生成回放(LwF、DGR、DGR+distill)在三种场景中都优于正则化方法,其中 DGR+distill 通常优于 DGR。
- 在 split MNIST 和 permuted MNIST 中,RtF 往往能匹配或超过 DGR+distill,同时显著降低训练时间(在许多情况下大约减半)。
- 跨任务来看,Class-IL 仍然是最具挑战性的;只有基于回放的方法在任务身份必须被推断时能保持性能。
- 蒸馏(soft targets)提升了生成回放对回放样本质量的鲁棒性,促成 DGR+distill 相对于 DGR 的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。