[论文解读] Continual Learning via Neural Pruning
CLNP 在稀疏的固定容量网络的未使用容量中训练新任务,确保对之前任务的零遗忘,同时实现对稀疏性与性能的优雅权衡。
We introduce Continual Learning via Neural Pruning (CLNP), a new method aimed at lifelong learning in fixed capacity models based on neuronal model sparsification. In this method, subsequent tasks are trained using the inactive neurons and filters of the sparsified network and cause zero deterioration to the performance of previous tasks. In order to deal with the possible compromise between model sparsity and performance, we formalize and incorporate the concept of graceful forgetting: the idea that it is preferable to suffer a small amount of forgetting in a controlled manner if it helps regain network capacity and prevents uncontrolled loss of performance during the training of future tasks. CLNP also provides simple continual learning diagnostic tools in terms of the number of free neurons left for the training of future tasks as well as the number of neurons that are being reused. In particular, we see in experiments that CLNP verifies and automatically takes advantage of the fact that the features of earlier layers are more transferable. We show empirically that CLNP leads to significantly improved results over current weight elasticity based methods.
研究动机与目标
- 在固定容量约束下激励终身学习,以避免灾难性遗忘。
- 提出基于激活的神经网络剪枝,创造可用于未来任务的可复用特征通路。
- 引入优雅的遗忘,以在略微牺牲准确率的同时重新获得容量。
- 提供剩余空闲神经元和重复使用神经元的诊断,以评估跨层的可迁移性。
- 在 MNIST 和 CIFAR 基准测试上证明相较于权重弹性方法的经验改进。
提出的方法
- 使用基于激活的稀疏性将网络分割为活跃、非活跃和干扰组件。
- 仅更新连接到非活跃神经元的自由权重来训练新任务,同时将干扰权重设为零。
- 应用 L1 权重正则化和基于平均神经元活动的训练后修剪步骤以诱导稀疏性。
- 引入门控/掩蔽方案(单头或多头)来管理任务输出而不遗忘先前任务。
- 通过选择在验证集精度保持在最佳值微小边际内的稀疏化水平来引入优雅的遗忘策略。
- 提供关于剩余自由神经元和跨层转移特征的简易诊断。
实验结果
研究问题
- RQ1基于激活的稀疏性是否能够使固定容量网络在不遗忘已有任务的情况下学习大量任务?
- RQ2跨层特征的重用如何影响转移学习和持续学习中的整体性能?
- RQ3引入优雅的遗忘是否在保持早期任务准确性的同时改善长期容量?
- RQ4在持续学习过程中,哪些诊断可以量化容量使用情况与可迁移性?
主要发现
| 方法 | 准确度 (%) |
|---|---|
| Single Task SGD | 98.48 ± 0.05 |
| Kirkpatrick et al. [9] | 97.0 |
| Zenke et al. [21] | 97.2 |
| Cheung et al. [2] | 97.6 |
| CLNP (ours) | 98.42 ± 0.04 |
- 在固定容量且不遗忘的情况下,CLNP 在置换 MNIST 上接近单任务 SGD 的准确性。
- 在置换 MNIST 实验中,CLNP 达到 98.42% ± 0.04%,而单任务 SGD 为 98.48% ± 0.05%,与竞争方法的 97.0–97.6% 相比。
- 该方法揭示早期层提供更可迁移的特征,后期层在新任务使用中的增长更多。
- 在某些配置下,CLNP 在完成 10 个任务后仍有显著容量剩余(第一层 18%,第二层 40%,一个设置下),大约可以在最终容量耗尽前实现约 25 个任务。
- 在 CIFAR-10 / CIFAR-100 上使用宽单头网络的实验表明对多任务具有鲁棒性,在优雅边界(1–4%)下实现可控遗忘。
- 一种更高级的带微调的稀疏化变体进一步提高了性能并降低了 CIFAR 实验中的遗忘。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。