[论文解读] Understanding Catastrophic Forgetting and Remembering in Continual Learning with Optimal Relevance Mapping
论文介绍 Relevance Mapping Networks (RMNs),它们在严格的持续学习框架下学习任务特定的权重相关性掩码,以最小化灾难性遗忘和灾难性记忆,且无需数据回放即可达到最新研究水平。
Catastrophic forgetting in neural networks is a significant problem for continual learning. A majority of the current methods replay previous data during training, which violates the constraints of an ideal continual learning system. Additionally, current approaches that deal with forgetting ignore the problem of catastrophic remembering, i.e. the worsening ability to discriminate between data from different tasks. In our work, we introduce Relevance Mapping Networks (RMNs) which are inspired by the Optimal Overlap Hypothesis. The mappings reflects the relevance of the weights for the task at hand by assigning large weights to essential parameters. We show that RMNs learn an optimized representational overlap that overcomes the twin problem of catastrophic forgetting and remembering. Our approach achieves state-of-the-art performance across all common continual learning datasets, even significantly outperforming data replay methods while not violating the constraints for an ideal continual learning system. Moreover, RMNs retain the ability to detect data from new tasks in an unsupervised manner, thus proving their resilience against catastrophic remembering.
研究动机与目标
- 激发并形式化严格持续学习中的双重问题:灾难性遗忘(CF)和灾难性记忆(CR)。
- 提出一种无数据回放的方法,学习任务特定的权重相关性映射以最小化CF和CR。
- 在标准CL基准上展示简单与复杂架构的最先进性能。
- 显示 RMNs 能在无监督方式检测新任务,解决无监督下的CR。
提出的方法
- 基于“最佳重叠假设”引入用于持续学习的相关性映射(RMN)。
- 维持一个近乎二值的基于任务的相关性掩码在网络权重上,与标准权重共同训练以创建任务特定子网络。
- 通过在权重上初始化的对数it-正态混合来表示相关性映射,并通过可学习参数 beta 进行四舍五入,以获得可微的掩码。
- 使用类贝叶斯后验分解,展示任务特定映射如何分离表示并防止有害干扰。
- 在没有回放缓冲区或为每个任务添加新网络的情况下,按照严格的持续学习约束进行训练。
- 在 Permuted MNIST、Split MNIST、Sequential Omniglot、Split CIFAR-100(10 和 20 任务)上使用各种架构(MLP、CNN、ResNet18)进行评估。
实验结果
研究问题
- RQ1在严格持续学习约束下,RMNs 能否在无数据回放的情况下缓解灾难性遗忘?
- RQ2RMNs 是否通过在连续任务中保留判别能力来缓解灾难性记忆,包括无监督任务检测?
- RQ3相较于最先进方法,RMNs 在标准CL基准和架构上的性能如何?
- RQ4RMNs 是否能在无任务标签的无监督设置中检测新任务?
- RQ5提出的贝叶斯解释如何解释 RMN 将任务特异性后验分解的能力?
主要发现
- RMNs 在标准CL基准上取得最先进的结果,超越基于回放的方法。
- RMNs 显示出显著改进:在P-MNIST上+2.8%、在S-MNIST上+0.5%、在S-Omniglot上+3.9%、在S-CIFAR100上+8.7%、在RES-CIFAR上+13.9%,相对于之前的SOTA。
- RMNs 在不需要回放缓冲、多头、预训练或预训练模型的情况下实现更优的CF缓解。
- RMNs 展示了无监督的新任务/数据检测和无监督的任务推断,解决CR。
- 该方法在简单与复杂架构(MLP 与 ResNet18)以及短期与长期持续学习任务中都实现了稳健表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。