QUICK REVIEW

[论文解读] Lifelong Learning with Dynamically Expandable Networks

Jaehong Yoon, Eunho Yang|arXiv (Cornell University)|Aug 4, 2017

Domain Adaptation and Few-Shot Learning参考文献 14被引用 181

一句话总结

DEN 是一个深度网络，能够动态扩展并选择性地重新训练以学习一系列任务，在参数显著更少的情况下实现与批量训练模型相当甚至更好的性能，并且没有语义漂移。

ABSTRACT

We propose a novel deep network architecture for lifelong learning which we refer to as Dynamically Expandable Network (DEN), that can dynamically decide its network capacity as it trains on a sequence of tasks, to learn a compact overlapping knowledge sharing structure among tasks. DEN is efficiently trained in an online manner by performing selective retraining, dynamically expands network capacity upon arrival of each task with only the necessary number of units, and effectively prevents semantic drift by splitting/duplicating units and timestamping them. We validate DEN on multiple public datasets under lifelong learning scenarios, on which it not only significantly outperforms existing lifelong learning methods for deep networks, but also achieves the same level of performance as the batch counterparts with substantially fewer number of parameters. Further, the obtained network fine-tuned on all tasks obtained significantly better performance over the batch models, which shows that it can be used to estimate the optimal network structure even when all tasks are available in the first place.

研究动机与目标

激励并解决深度网络在任务按顺序到来时的终身学习问题。
开发一个模型，仅在需要时选择性地重新训练现有组件并扩展容量。
通过带时间戳的单元和自适应分裂防止语义漂移（灾难性遗忘）。
在比批量或静态终身学习基线更少参数的情况下实现有竞争力的任务性能。
证明该模型即使在所有任务稍后才可用时也能估计出最优网络结构。
-

提出的方法

引入动态可扩展网络（DEN），将选择性重新训练、动态扩展以及单元的分裂/复制结合起来。
使用稀疏和组稀疏正则化来识别相关子网络并决定每一层要增加多少神经元（Eq. 5）。
通过在网络子集 S 内求解有针对性的优化（Eq. 3 和 Eq. 4）来应用选择性重训练。
仅在需要时通过求解一个组稀疏目标来扩展容量，该目标可以裁剪不必要的新增单元（Eq. 5）。
对语义漂移（由漂移 rho_i^t 测量）超过阈值的单元进行分裂/复制，然后重新训练（Eq. 6 和 Algorithm 4）。
为新添加的单元打上时间戳，以实现符合训练阶段的推理（带时间戳的推理）。

实验结果

研究问题

RQ1神经网络是否能够通过仅对网络中相关部分进行选择性重新训练来高效学习一系列任务？
RQ2当新任务在语义上与之前的任务不同寻常时，动态容量扩展是否会提升性能？
RQ3通过分裂/复制单元和带时间戳的推理，是否能够在实现持续学习的同时防止语义漂移？
RQ4在准确性和参数效率方面，DEN 与基线方法（如弹性权重整合、渐进网络）相比如何？
RQ5学习得到的结构是否可以泛化为在所有任务可用时估计最优容量（批量设定）？

主要发现

DEN 在参数量仅为各数据集的 11.9%–60.3% 时，仍实现与批量模型相似或更好的性能。
在终身学习场景中，DEN 在 MNIST-Variation、CIFAR-100 和 AWA 上超过了如 L2 正则化再训练、EWC 和 Progressive Networks 等基线。
选择性再训练减少了训练时间，并将更新聚焦于与任务相关的子网络。
带组稀疏的动态扩展仅添加必要的神经元，避免过度参数化并提高效率。
子网/特征漂移触发单元复制，有助于在获取新知识的同时保持旧任务的性能。
在所有任务上对 DEN 进行微调（DEN-Finetune）可获得最佳性能，超越批量模型，并实现对网络容量的有效估计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。