[论文解读] Online Continual Learning with Maximally Interfered Retrieval
论文提出最大干扰检索(MIR)用于基于重放的在线持续学习,选择在即将进行的参数更新下受到最大影响的回放样本,以减少遗忘。
Continual learning, the setting where a learning agent is faced with a never ending stream of data, continues to be a great challenge for modern machine learning systems. In particular the online or "single-pass through the data" setting has gained attention recently as a natural setting that is difficult to tackle. Methods based on replay, either generative or from a stored memory, have been shown to be effective approaches for continual learning, matching or exceeding the state of the art in a number of standard benchmarks. These approaches typically rely on randomly selecting samples from the replay memory or from a generative model, which is suboptimal. In this work, we consider a controlled sampling of memories for replay. We retrieve the samples which are most interfered, i.e. whose prediction will be most negatively impacted by the foreseen parameters update. We show a formulation for this sampling criterion in both the generative replay and the experience replay setting, producing consistent gains in performance and greatly reduced forgetting. We release an implementation of our method at https://github.com/optimass/Maximally_Interfered_Retrieval.
研究动机与目标
- 在 online、单次遍历的持续学习中解决灾难性遗忘。
- 通过选择最受下次更新影响的记忆来提高回放质量(最大干扰)。
- 在经验回放和生成回放设置中展示 MIR 的效用。
- 探索一种混合方法,使用自动编码器压缩记忆以实现可扩展的 MIR 检索。
提出的方法
- 用 MIR 定义基于记忆的排练:从缓冲区检索在应用来自传入批次的估算参数更新后损失增加最多的前 k 个记忆(MI-1/MI-2 条件)。
- 将 MIR 扩展到生成回放:在潜在空间 Z 中搜索以最大化估计更新前后损失差异,使用正则化目标(公式1和公式2)。
- 使用简单的缓冲策略,结合水库抽样和多样性促进的预选择(先选 C 个样本再选 B 个)以管理计算。
- 对于生成 MIR,通过来自先前/当前模型的预测来估计真实标签 y*,并使用 KL 散度作为干扰代理;可选地应用熵正则化以促进置信生成(公式2)。
- 提出一种混合方法:用自动编码器压缩记忆以实现更大的缓冲区,在潜在空间执行 MIR,随后进行最近邻重构以映射回真实样本。
实验结果
研究问题
- RQ1相比随机回放,学习到即将更新所产生最大干扰的样本是否能更有效地减少遗忘?
- RQ2基于 MIR 的回放策略是否在经验回放和生成回放设置下提升在线持续学习的性能?
- RQ3基于混合自动编码器的 MIR 是否能在不牺牲性能的前提下实现可扩展的内存使用?
主要发现
- 与标准 ER 相比,ER-MIR 在 MNIST 拆分和置换 MNIST 上提高了准确性并减少了遗忘。
- 在 CIFAR-10 的较大内存规模下,ER-MIR 在在线约束下展现出比 ER 以及如 GEM 和 iCarl 等基线更好的准确性和更低的遗忘。
- GEN-MIR 在 MNIST Split 和 Permuted MNIST 上相对于 GEN(随机/回放基线)提升生成器损失和准确度,熵正则化项发挥关键作用。
- 混合 AE-MIR 方法,具潜在空间 MIR 和真实重构对齐,在遗忘权衡方面表现更好,并从更大压缩记忆中获益。
- 增加每个传入批次的更新次数通常会提升基于 MIR 的方法在各数据集上的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。