[论文解读] RMM: Reinforced Memory Management for Class-Incremental Learning
RMM 引入分层强化学习策略,在类增量学习中动态分配内存在回放基线上提升 CIFAR-100、ImageNet-Subset 和 ImageNet-Full 的表现。
Class-Incremental Learning (CIL) [40] trains classifiers under a strict memory budget: in each incremental phase, learning is done for new data, most of which is abandoned to free space for the next phase. The preserved data are exemplars used for replaying. However, existing methods use a static and ad hoc strategy for memory allocation, which is often sub-optimal. In this work, we propose a dynamic memory management strategy that is optimized for the incremental phases and different object classes. We call our method reinforced memory management (RMM), leveraging reinforcement learning. RMM training is not naturally compatible with CIL as the past, and future data are strictly non-accessible during the incremental phases. We solve this by training the policy function of RMM on pseudo CIL tasks, e.g., the tasks built on the data of the 0-th phase, and then applying it to target tasks. RMM propagates two levels of actions: Level-1 determines how to split the memory between old and new classes, and Level-2 allocates memory for each specific class. In essence, it is an optimizable and general method for memory management that can be used in any replaying-based CIL method. For evaluation, we plug RMM into two top-performing baselines (LUCIR+AANets and POD+AANets [30]) and conduct experiments on three benchmarks (CIFAR-100, ImageNet-Subset, and ImageNet-Full). Our results show clear improvements, e.g., boosting POD+AANets by 3.6%, 4.4%, and 1.9% in the 25-Phase settings of the above benchmarks, respectively.
研究动机与目标
- 在严格的内存预算下,激励改进类增量学习(CIL)中的内存分配,以减轻遗忘。
- 提出一种分层强化学习策略,最优地在旧样本与新数据之间分配内存,然后为每个类别分配内存。
- 通过在伪 CIL 任务上训练以便将策略迁移到目标 CIL 任务,从而实现可迁移的策略学习。
- 证明 RMM 在多个基准上始终提升顶级基线(LUCIR+AANets、POD+AANets)表现。
提出的方法
- 引入两层分层策略:Level-1 在样本(旧数据)与新数据之间分配内存;Level-2 在旧类别之间基于训练熵分配旧样本内存。
- 将阶段 i 的状态 s_i 定义为 (C_i / sum_{t<=i} C_t, |M_old| / |M|),以确保可迁移性和阶段辨识度。
- Level-1 动作 a_i^{[1]} 衡量第一阶段的旧样本内存占比,以及后续阶段的增量变化,并设定界限以维持可行的内存分配。
- Level-2 动作 a_i^{[2]} 将旧样本内存分配给高熵和低熵类别组(发现两组效果较好)。
- 使用基于 REINFORCE 的策略优化,采用移动均值基线,以最大化跨所有阶段的累积验证准确度(R = sum r_i)。
- 在可用数据生成的伪 CIL 任务上训练策略函数(例如 D_0),以便在学习可迁移策略时访问过去/未来数据。
实验结果
研究问题
- RQ1分层 RL 策略是否能够在 CIL 中学习对旧数据与新数据的每阶段内存分配以及按类的内存分配的最优解?
- RQ2伪 CIL 任务训练是否能够在实际增量阶段不访问过去/未来数据的前提下实现对目标 CIL 任务的可迁移策略学习?
- RQ3按类别的内存分配和基于熵的分组在跨基准和阶段数量上的静态内存分配相比,性能提升有多大?
- RQ4RMM 是否与现有基于回放的 CIL 基线(如 LUCIR+AANets 和 POD+AANets)兼容并带来收益?
- RQ5跨数据集迁移策略函数在 CIL 中对性能的影响程度如何?
主要发现
- RMM 在跨基准和阶段数量上始终提升两大基线(LUCIR+AANets 与 POD+AANets)。
- POD+AANets 结合 RMM 实现最佳整体性能,相较基线在 CIFAR-100, N=25 上提升 3.6%,在 ImageNet-Subset, N=25 上提升 4.4%。
- 在更困难、长期视角的设置(N=25)中性能提升更显著,绝对提升比在较小阶段数(N=5)时更大。
- 分层 RL(两层)优于单层 RL,在跨数据集的平均和最后一阶段准确度上均有提升。
- 将策略函数从另一个数据集进行迁移(跨任务)可获得与在任务内 RL 同等水平的增益,减少目标任务 RL 训练需求。
- 消融研究表明,在 RMM 下,记忆分配在旧样本与新数据之间变得更为平衡,缓解数据不平衡问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。