[论文解读] SIESTA: Efficient Online Continual Learning with Sleep
SIESTA 通过在线阶段输出层的更新与休眠时的离线记忆巩固,实现对 ImageNet-1K 的离线级别性能,同时需要的计算和内存远少于现有方法。
In supervised continual learning, a deep neural network (DNN) is updated with an ever-growing data stream. Unlike the offline setting where data is shuffled, we cannot make any distributional assumptions about the data stream. Ideally, only one pass through the dataset is needed for computational efficiency. However, existing methods are inadequate and make many assumptions that cannot be made for real-world applications, while simultaneously failing to improve computational efficiency. In this paper, we propose a novel continual learning method, SIESTA based on wake/sleep framework for training, which is well aligned to the needs of on-device learning. The major goal of SIESTA is to advance compute efficient continual learning so that DNNs can be updated efficiently using far less time and energy. The principal innovations of SIESTA are: 1) rapid online updates using a rehearsal-free, backpropagation-free, and data-driven network update rule during its wake phase, and 2) expedited memory consolidation using a compute-restricted rehearsal policy during its sleep phase. For memory efficiency, SIESTA adapts latent rehearsal using memory indexing from REMIND. Compared to REMIND and prior arts, SIESTA is far more computationally efficient, enabling continual learning on ImageNet-1K in under 2 hours on a single GPU; moreover, in the augmentation-free setting it matches the performance of the offline learner, a milestone critical to driving adoption of continual learning in real-world applications.
研究动机与目标
- 将在线更新形式化为带离线记忆巩固的有监督持续学习。
- 开发一个唤醒/休眠算法(SIESTA),在计算与内存约束下实现快速在线更新与记忆巩固。
- 利用潜在排练与记忆索引提高排练过程中的记忆效率。
- 在 ImageNet-1K 及其他数据集上在不使用数据增强的情况下展示 SIESTA 的效率与性能。
- 展示对任意数据顺序的鲁棒性,在无增强的设置下实现零遗忘。
提出的方法
- 两阶段学习:唤醒阶段对输出层进行基于运行中类别均值的轻量级在线更新;休眠阶段对 G 和 F 进行基于排练的离线更新,H 保持冻结。
- 通过在预训练数据上学习的量化中间表示并使用乘积量化(PQ)进行存储,实现潜在排练的内存高效性(PQ 能重建 Z)。
- 分类使用带学习温度参数的余弦 softmax 来计算类别分数。
- 在线更新时输出层更新公式为 f_k <- (c_k f_k + z_t) / (c_k + 1),其中 c_k 为类别计数。
- 休眠阶段排练从存储的 Z 表示中选取小批量并通过反向传播更新 G 与 F,最多进行 m 次梯度更新,H 保持固定。
- 网络结构采用 MobileNetV3-L,H 为前 8 层,G、F 为顶层;来自 FAISS 的 PQ 对 Z 进行压缩以实现内存高效。
实验结果
研究问题
- RQ1唤醒阶段的在线更新是否可以在不进行排练的情况下实现高效的持续学习?
- RQ2通过休眠实现离线记忆巩固并进行潜在排练,是否能在大规模数据集上达到与最先进持续学习方法相媲美或更优的性能?
- RQ3在没有任务标签的情况下,SIESTA 是否对任意数据顺序(iid 和类增量)保持性能?
- RQ4与现有在 ImageNet-1K 及其他数据集上的持续学习方法相比,SIESTA 在内存和计算效率方面的表现如何?
主要发现
| Method | P (M) | μ (top-5 %) | α (top-5 %) | M (GB) | U (M) | GFLOPS (↑) |
|---|---|---|---|---|---|---|
| Offline | 5.48 | — | 83.31 | 192.87 | 768.70 | — |
| DER | 54.80 | 81.87 | 70.15 | 20.99 | 12.43 | 7944.60 |
| ER | 5.48 | 76.32 | 63.92 | 19.59 | 11.53 | 1294.10 |
| REMIND | 5.48 | 81.77 | 74.31 | 2.02 | 11.53 | 10139.00 |
| SIESTA | 5.48 | 88.33 | 83.59 | 2.02 | 11.53 | 19326.00 |
- SIESTA 在不使用增强的设置下,在 ImageNet-1K 上达到离线学习者的性能,并且相对于离线模型没有遗忘。
- SIESTA 使用的参数量和内存远少于对比方法,更新次数也显著更少(例如:参数量 11.68–116.89M;内存 19–22 GB;基线更新 11.53M;在给定设置下 SIESTA 达到 2.02e7 次更新)。
- 在增强设置下,SIESTA 在最终准确率方面显著优于 DER、ER、REMIND,分别高出 +15.18、+15.78、+4.03 百分点。
- 在单 GPU、无增强的情况下,SIESTA 能在不到 2 小时内完成对 ImageNet-1K 的训练,远快于对比方法。
- 睡眠引导的离线巩固在休眠周期后产生稳定的精度提升(平均约4.25% 的绝对值提升)。
- SIESTA 对数据顺序具有鲁棒性(iid 与类增量),在关键设置中结果与离线模型差异不显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。