[论文解读] Continual Unsupervised Representation Learning
CURL 在持续学习环境中通过推断任务、动态扩展容量、以及使用混合生成重放来对抗遗忘,学习任务无关的、无监督的表征;在 MNIST 和 Omniglot 上展示了具有竞争力的结果。
Continual learning aims to improve the ability of modern learning systems to deal with non-stationary distributions, typically by attempting to learn a series of tasks sequentially. Prior art in the field has largely considered supervised or reinforcement learning tasks, and often assumes full knowledge of task labels and boundaries. In this work, we propose an approach (CURL) to tackle a more general problem that we will refer to as unsupervised continual learning. The focus is on learning representations without any knowledge about task identity, and we explore scenarios when there are abrupt changes between tasks, smooth transitions from one task to another, or even when the data is shuffled. The proposed approach performs task inference directly within the model, is able to dynamically expand to capture new concepts over its lifetime, and incorporates additional rehearsal-based techniques to deal with catastrophic forgetting. We demonstrate the efficacy of CURL in an unsupervised learning setting with MNIST and Omniglot, where the lack of labels ensures no information is leaked about the task. Further, we demonstrate strong performance compared to prior art in an i.i.d setting, or when adapting the technique to supervised tasks such as incremental class learning.
研究动机与目标
- 解决任务标签和边界未知的无监督持续学习问题。
- 开发一个在网络内部无需监督即可推断任务的模型。
- 实现动态容量扩展以在整个生命周期内捕捉新概念。
- 通过针对混合模型定制的生成式重放来缓解灾难性遗忘。
提出的方法
- 提出 CURL,一种变分模型,其潜在空间为高斯混合模型,条件为推断出的任务 y。
- 使用 q(y|x) 推断任务,q(z|x,y) 作为潜在表示,p(z|y) 与 p(x|z) 作为生成组件。
- 通过对 y 和 z 求边际化的证据下界(ELBO)进行训练,包含分量级重构和 KL 正则化项。
- 当一个缓冲区内建模不足的样本达到阈值时,动态地用一个新分量扩展混合模型,并从最相关的现有分量初始化。
- 应用混合生成重放(MGR)通过将真实数据与模型快照生成的数据交错来对抗遗忘,使用对分量自洽的先验。
- 在标签可用的情形下,可选地加入监督损失,引导 q(y|x) 指向观测到的 y。
实验结果
研究问题
- RQ1无监督持续学习能在没有任务标签或边界的情况下推断任务结构吗?
- RQ2动态扩展是否能在整个生命周期中有效地为新概念分配容量?
- RQ3混合生成式重放能否在无监督的持续设置中缓解灾难性遗忘?
- RQ4在独立同分布(i.i.d.)和有监督的适应性方面,CURL 相较现有方法在标准基准上有多具竞争力?
主要发现
- CURL 在连续、无监督设置中实现了有意义的类别判别潜在表示且不遗忘。
- 相较基线,动态扩展和 MGR 显著提升簇精度并降低遗忘。
- 在消融实验中,容量扩展与共同使用 MGR 能获得更好的性能;若不扩展,性能显著下降。
- 在 i.i.d. 设置下训练时,CURL 仍与最先进方法竞争力十足,并且对有监督增量任务(splitMNIST)适应良好。
- 在连续漂移情景下,CURL 保持稳健性能,混合分量对渐进的分布变化适应平滑。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。