QUICK REVIEW

[论文解读] Continual Learning with Adaptive Weights (CLAW)

Tameem Adel, Han Zhao|arXiv (Cornell University)|Nov 21, 2019

Domain Adaptation and Few-Shot Learning参考文献 83被引用 27

一句话总结

CLAW 提出了一种基于变分推断的持续学习概率框架，可自动确定哪些神经元应局部适应、哪些应全局共享，从而无需预设的网络结构划分。该方法通过数据驱动的结构自适应，在不扩展模型规模的前提下，最小化灾难性遗忘并最大化正向迁移，从而在六个基准测试中实现最先进性能。

ABSTRACT

Approaches to continual learning aim to successfully learn a set of related tasks that arrive in an online manner. Recently, several frameworks have been developed which enable deep learning to be deployed in this learning scenario. A key modelling decision is to what extent the architecture should be shared across tasks. On the one hand, separately modelling each task avoids catastrophic forgetting but it does not support transfer learning and leads to large models. On the other hand, rigidly specifying a shared component and a task-specific part enables task transfer and limits the model size, but it is vulnerable to catastrophic forgetting and restricts the form of task-transfer that can occur. Ideally, the network should adaptively identify which parts of the network to share in a data driven way. Here we introduce such an approach called Continual Learning with Adaptive Weights (CLAW), which is based on probabilistic modelling and variational inference. Experiments show that CLAW achieves state-of-the-art performance on six benchmarks in terms of overall continual learning performance, as measured by classification accuracy, and in terms of addressing catastrophic forgetting.

研究动机与目标

通过基于数据的动态网络结构自适应，解决持续学习中的灾难性遗忘问题。
消除对共享（全局）与任务特定（局部）网络组件之间手工设计的固定划分的依赖。
在保持模型效率的同时，实现灵活、数据驱动的跨任务参数共享学习。
同时提升正向迁移（知识向未来任务的迁移）与反向稳定性（对过去任务性能的保留）。
开发一种可扩展的、与现有持续学习流水线兼容的增量推理框架。

提出的方法

CLAW 在变分持续学习（VCL）基础上，采用概率贝叶斯框架并结合增量后验更新机制进行扩展。
针对每个神经元，引入一个二元开关变量，以控制该神经元是局部适应还是全局共享。
每个神经元学习两个连续的适应参数，以控制任务特定更新的幅度。
所有参数，包括二元开关，均通过变分推断联合推断，并采用摊销推理方案。
该框架可在不重新训练历史数据的情况下实现增量学习，保持稳定性并支持正向迁移。
通过重用现有神经元避免架构扩展，且无需存储或生成回放数据。

实验结果

研究问题

RQ1持续学习框架能否自动判断哪些网络组件应在任务间共享，哪些应局部适应？
RQ2如何在无先验架构约束的前提下，以数据驱动的、概率化方式学习架构自适应？
RQ3此类框架在多大程度上可减少灾难性遗忘并提升正向迁移？
RQ4所提出的方法能否在不增加模型规模或依赖记忆回放的前提下实现最先进性能？
RQ5CLAW 的性能与现有正则化方法、基于架构的方法及基于记忆的方法相比如何？

主要发现

在五个数据集（包括 Split MNIST、notMNIST、Fashion-MNIST、Omniglot 和 CIFAR-100）的六个实验中，CLAW 在平均准确率上达到最先进水平。
在 Split MNIST 基准测试中，即使在学习多个后续任务后，CLAW 仍能保持初始任务的高性能，表现出极小的遗忘。
在正向迁移评估中，当使用更多先前任务进行训练时，CLAW 在最终任务上的性能提升最为显著，在五项实验中的四项中优于所有基线方法。
与 EWC、LwF 等基于正则化的其他方法相比，CLAW 更有效地减少了灾难性遗忘，性能保留曲线显示其优势。
该方法在不增加新神经元或依赖数据回放的前提下，保持了模型效率并取得了具有竞争力的结果。
在稳定性（反向迁移）与可塑性（正向迁移）方面，CLAW 的性能与现有方法相当或更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。