[论文解读] Active Long Term Memory Networks
该论文提出主动长期记忆网络(A-LTM),一种深度学习框架,通过结合知识蒸馏与回放机制,缓解持续多任务学习中的灾难性遗忘。通过利用稳定且蒸馏的主干网络与灵活的分类头网络,A-LTM在保持先前学习的视角识别任务高准确率(iLab-20M数据集上达84%)的同时,适应ImageNet的复杂大规模领域,实现90%的视角准确率(使用回放)与57%的准确率(不使用回放),证明了其在无外部监督下的鲁棒终身学习能力。
Continual Learning in artificial neural networks suffers from interference and forgetting when different tasks are learned sequentially. This paper introduces the Active Long Term Memory Networks (A-LTM), a model of sequential multi-task deep learning that is able to maintain previously learned association between sensory input and behavioral output while acquiring knew knowledge. A-LTM exploits the non-convex nature of deep neural networks and actively maintains knowledge of previously learned, inactive tasks using a distillation loss. Distortions of the learned input-output map are penalized but hidden layers are free to transverse towards new local optima that are more favorable for the multi-task objective. We re-frame the McClelland's seminal Hippocampal theory with respect to Catastrophic Inference (CI) behavior exhibited by modern deep architectures trained with back-propagation and inhomogeneous sampling of latent factors across epochs. We present empirical results of non-trivial CI during continual learning in Deep Linear Networks trained on the same task, in Convolutional Neural Networks when the task shifts from predicting semantic to graphical factors and during domain adaptation from simple to complex environments. We present results of the A-LTM model's ability to maintain viewpoint recognition learned in the highly controlled iLab-20M dataset with 10 object categories and 88 camera viewpoints, while adapting to the unstructured domain of Imagenet with 1,000 object categories.
研究动机与目标
- 为解决顺序深度学习中的灾难性干扰问题,即新任务破坏先前学习的知识。
- 开发一种终身学习框架,无需持续访问原始数据,即可长期保留先前任务的记忆。
- 探讨数据分布变化与非平稳环境在导致深度网络灾难性遗忘中的作用。
- 评估知识蒸馏与输入回放结合是否能有效稳定在数据统计差异巨大的不同领域之间的学习。
- 通过实证验证模型在高度结构化、受控任务(视角识别)上保持性能的同时,适应大规模、非结构化领域(ImageNet)的能力。
提出的方法
- A-LTM使用在先前任务上训练的稳定、蒸馏主干网络(N)为新任务中的灵活分类头网络(H)提供知识蒸馏的监督信号。
- 模型采用知识蒸馏惩罚稳定网络的输入-输出映射畸变,以保持旧任务的性能。
- 针对输入分布非平稳的领域迁移,引入回放机制——通过存储过往输入或利用稳定网络生成输入,以平衡分布偏移。
- 灵活的分类头网络(H)从稳定网络(N)初始化,并在新数据上微调,使其在保留旧知识的同时实现适应,该过程通过知识蒸馏实现。
- 以多任务学习设置为基线,A-LTM在无需旧数据联合监督的情况下,模拟多任务学习。
- 该方法在从iLab-20M数据集(10类,88个视角)持续迁移到ImageNet(1000类,100万张图像)的设置下进行评估,同时测量新任务的准确率与原始任务的记忆保持能力。
实验结果
研究问题
- RQ1仅靠知识蒸馏是否足以防止从受控的低维领域(iLab-20M)迁移到大规模高维领域(ImageNet)时的灾难性遗忘?
- RQ2当领域间基础数据分布发生显著变化时,缺乏回放机制对记忆保持能力有何影响?
- RQ3在无法访问原始标签的情况下,稳定且蒸馏的网络在持续学习中能在多大程度上作为伪标签源?
- RQ4当新领域的输入分布与原始领域存在显著差异时,A-LTM的性能是否会显著下降?
- RQ5A-LTM是否能在无需在两个数据集上联合训练的情况下,实现与多任务学习相当的性能?
主要发现
- 使用回放的A-LTM在迁移到ImageNet后,对iLab-20M原始视角识别任务的准确率达到90%,显著优于无回放的变体(57%)。
- 无回放的A-LTM变体在视角识别任务上的性能出现显著初始下降(从84%降至57%),表明在缺乏回放的情况下,分布偏移会严重损害记忆保持。
- 当从iLab-20M多任务网络初始化时,模型在视角任务上保持84%的准确率,证明预训练权重对持续学习具有显著优势。
- 无回放的A-LTM在ImageNet上仅达到40%的top-1准确率,表明仅靠蒸馏在高分布偏移领域中不足以实现有效适应。
- A-LTM框架成功在ImageNet上实现与多任务学习相当的性能(41%准确率),同时在无需访问原始标签的情况下,保持了对原始任务的长期记忆。
- 实证结果证实,当数据分布非平稳且采样不均匀时,深度网络中会发生灾难性干扰,尤其在高维复杂环境中更为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。