QUICK REVIEW

[论文解读] Learn to Grow: A Continual Structure Learning Framework for Overcoming Catastrophic Forgetting

Xilai Li, Yingbo Zhou|arXiv (Cornell University)|Mar 30, 2019

Multimodal Machine Learning Applications被引用 110

一句话总结

该论文提出 Learn-to-Grow，一种持续学习框架，明确将结构学习与参数学习分离，使用神经架构搜索来增长任务特定结构，同时重用共享原语以缓解灾难性忘记。它在置换的 MNIST、拆分 CIFAR-100，以及视觉领域十项全能上展示了显著的性能提升。

ABSTRACT

Addressing catastrophic forgetting is one of the key challenges in continual learning where machine learning systems are trained with sequential or streaming tasks. Despite recent remarkable progress in state-of-the-art deep learning, deep neural networks (DNNs) are still plagued with the catastrophic forgetting problem. This paper presents a conceptually simple yet general and effective framework for handling catastrophic forgetting in continual learning with DNNs. The proposed method consists of two components: a neural structure optimization component and a parameter learning and/or fine-tuning component. By separating the explicit neural structure learning and the parameter estimation, not only is the proposed method capable of evolving neural structures in an intuitively meaningful way, but also shows strong capabilities of alleviating catastrophic forgetting in experiments. Furthermore, the proposed method outperforms all other baselines on the permuted MNIST dataset, the split CIFAR100 dataset and the Visual Domain Decathlon dataset in continual learning setting.

研究动机与目标

将持续学习作为防止连续任务学习中的灾难性 forget 的手段进行动机化。
提出一个分离结构增长与参数学习的两组件框架。
开发一个可区分的基于 NAS 的方法，以决定在每个任务中何时重用、适应或创建新组件。
在多样化的持续学习基准上展示更高的性能与降低的遗忘。

提出的方法

提出一个 Learn-to-Grow 框架，使模型 Tt = Tt-1 ∪ θt 的增长伴随任务特定结构 st(Θt) 的扩展。
将带有结构正则化 Rs(st) 和参数正则化 Rp(Θt) 的惩罚损失形式化，以约束增长。
使用可微分神经架构搜索（NAS）通过对架构权重 α 的连续松弛，优化每层的选项：重用、适应或新建。
采用两阶段优化：先用验证集进行 NAS 以选择架构，再在训练集进行参数学习；更新汇聚所有任务特定结构的超网络。
为每一层实现三种具体操作：重用（共享先前权重）、适应（添加一个小型适配器）和新建（产生一个新层）。
针对当前任务重新训练所选结构，在需要时对重用部分进行正则化微调，以在稳定性和可塑性之间取得平衡。

实验结果

研究问题

RQ1通过NAS 的显式持续结构学习是否能够为序列任务产生合理、针对任务的架构？
RQ2将结构学习与参数学习分离是否比基线持续学习方法更有效地减少灾难性遗忘？
RQ3与最先进方法相比，Learn-to-Grow 框架在标准持续学习基准（置换 MNIST、视觉领域十项全能）上的表现如何？
RQ4不同的架构决策（重用/适应/新建）对不同任务之间的遗忘和迁移有何影响？

主要发现

模型	ImNet	C100	SVHN	UCF	OGlt	GTSR	DPed	Flwr	Airc.	DTD	avg.	#params
Individual	69.84	73.96	95.22	69.94	86.05	99.97	99.86	41.86	50.41	29.88	71.70	58.96M
Classifier	69.84	77.07	93.12	62.37	79.93	99.68	98.92	65.88	36.41	48.20	73.14	6.68M
Adapter	69.84	79.82	94.21	70.72	85.10	99.89	99.58	60.29	50.11	50.60	76.02	12.50M
Ours (fix)	69.84	79.59	95.28	72.03	86.60	99.72	99.52	71.27	53.01	49.89	77.68	14.46M

所学习的结构往往在语义相似的任务之间重用层，当任务差异很大时会新建结构，从而产生对任务特定的合理架构。
与 SGD 基线相比，遗忘显著降低，在置换 MNIST 和视觉领域十项全能上与其他方法相比具竞争力或更优。
该方法在多任务上实现了强烈的平均准确度，同时具有有利的参数效率，通常在具有相似模型规模的基线之上。
在置换 MNIST 上，该方法达到比包括 EWC、IMM、HAT、DEN 在内的若干基线更高的平均准确度，具体取决于正则化。
在视觉领域十项全能上，Learn-to-Grow 以具竞争的参数规模取得多任务的最佳总体结果。
该方法表明显式的结构学习减少了对广泛微调的需求，同时在连续任务上保持或提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。