[论文解读] Continual Learning in Low-rank Orthogonal Subspaces
本文在神经网络中提出正交子空间用于持续学习,通过在斯蒂费尔流形上优化权重矩阵以实现正交性来最小化跨任务干扰,并在记忆基线上取得强劲表现。
In continual learning (CL), a learner is faced with a sequence of tasks, arriving one after the other, and the goal is to remember all the tasks once the continual learning experience is finished. The prior art in CL uses episodic memory, parameter regularization or extensible network structures to reduce interference among tasks, but in the end, all the approaches learn different tasks in a joint vector space. We believe this invariably leads to interference among different tasks. We propose to learn tasks in different (low-rank) vector subspaces that are kept orthogonal to each other in order to minimize interference. Further, to keep the gradients of different tasks coming from these subspaces orthogonal to each other, we learn isometric mappings by posing network training as an optimization problem over the Stiefel manifold. To the best of our understanding, we report, for the first time, strong results over experience-replay baseline with and without memory on standard classification benchmarks in continual learning. The code is made publicly available.
研究动机与目标
- 通过在正交子空间中学习任务而不是在共享向量空间中学习,来降低持续学习中的干扰。
- 引入一种投影方案,将每个任务分配到具有正交保证的独立低秩子空间。
- 通过在斯蒂费尔流形上优化权重来实现等距梯度变换,以在各层保持正交性。
- 在 MNIST、CIFAR 和 ImageNet 派生任务上证明相对于强大的经验回放基线的统计收益。
提出的方法
- 通过在 R^{m×m} 中的秩-r 投影 P_t 为每个任务分配一个低秩子空间,满足 P_t^T P_t = I 且 P_t^T P_k = 0(当 k ≠ t 时)。
- 使来自不同任务的梯度在投影层正交,并通过在斯蒂费尔流形上更新权重来保持这一正交性(W_l^T W_l = I)。
- 通过切空间投影和基于 Cayley 变换的回撤在斯蒂费尔流形上进行优化,以在训练过程中保持权重矩阵的正交性。
- 为过去任务保留一个小型回放缓冲区,并对当前和过去任务计算梯度,以形成有效梯度 g_l = g_l^t + g_l^k。
- 用随机正交权重初始化网络,并离线构建投影基 O_t,以构建 P_t = O_t O_t^T。
- 提供训练正交子空间的算法细节(Alg. 1),通过 Cayley 变换实现自适应学习。
实验结果
研究问题
- RQ1将每个任务在独立的低秩子空间中学习,是否可以减少持续学习中的干扰和遗忘?
- RQ2通过 Stiefel 流形优化强制权重矩阵正交性,是否能在跨层保持梯度正交性并在有限 episodic memory 下提高性能?
- RQ3与强大的基于记忆的基线相比,orthog-subspace 在标准持续学习基准上的表现如何?
- RQ4在浅层网络与深层网络中,投影与正交性方法是否更有利?
主要发现
| Method | Permuted MNIST Accuracy | Forgetting | Rotated MNIST Accuracy | Forgetting | Split CIFAR Accuracy | Forgetting | Split miniImageNet Accuracy | Forgetting |
|---|---|---|---|---|---|---|---|---|
| Finetune | 50.6 (±2.57) | 0.44 (±0.02) | 43.1 (±1.20) | 0.55 (±0.01) | - | - | - | - |
| EWC (Kirkpatrick et al., 2016) | 68.4 (±0.76) | 0.25 (±0.01) | 43.6 (±0.81) | 0.53 (±0.01) | - | - | - | - |
| VCL (Nguyen et al., 2018) | 51.8 (±1.54) | 0.44 (±0.01) | 48.2 (±0.99) | 0.50 (±0.01) | - | - | - | - |
| VCL-Random (Nguyen et al., 2018) | 52.3 (±0.66) | 0.43 (±0.01) | 54.4 (±1.44) | 0.44 (±0.01) | - | - | - | - |
| AGEM (Chaudhry et al., 2019a) | 78.3 (±0.42) | 0.15 (±0.01) | 60.5 (±1.77) | 0.36 (±0.01) | - | - | - | - |
| MER (Riemer et al., 2019) | 78.6 (±0.84) | 0.15 (±0.01) | 68.7 (±0.38) | 0.28 (±0.01) | - | - | - | - |
| ER-Ring (Chaudhry et al., 2019b) | 79.5 (±0.31) | 0.12 (±0.01) | 70.9 (±0.38) | 0.24 (±0.01) | - | - | - | - |
| orthog-subspace (ours) | 86.6 (±0.91) | 0.04 (±0.01) | 80.1 (±0.95) | 0.14 (±0.01) | - | - | - | - |
| Multitask | 91.3 | 0.0 | 94.3 | 0.0 | - | - | - | - |
| Split CIFAR (Memory= | 64.3 (±0.59) | 0.07 (±0.01) | - | - | - | - | - | - |
| Split miniImageNet (Memory= | 51.4 (±1.44) | 0.10 (±0.01) | - | - | - | - | - | - |
- orthog-subspace 在较深网络上相对于强经验回放基线的准确性提高最多 4.7 个百分点,遗忘减少多达 50%(在 CIFAR-100 和 miniImageNet 使用记忆时)。
- 在较浅的网络(Permuted/Rotated MNIST)上,若不使用记忆,orthog-subspace 实现平均准确性提升 7.1–9.2 个百分点,遗忘减少 42–66%。
- 系统性消融分析显示:仅投影效果较弱;增加记忆有帮助;强制 Stiefel 流形正交性可获得最佳准确性和最低遗忘。
- 梯度分析证实,在 Stiefel 约束下,跨任务的梯度内积趋于零,表明干扰减少。
- 在极少量 episodic memory 下,orthog-subspace 超越 ER-Ring,在若干基准上取得优势,随着记忆规模增加,增益缩小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。