[论文解读] Orthogonal Gradient Descent for Continual Learning
本文提出正交梯度下降(OGD),通过将新任务的梯度投影到与先前任务梯度方向正交的子空间,从而缓解灾难性遗忘,使在不存储以往数据的情况下学习新任务成为可能。
Neural networks are achieving state of the art and sometimes super-human performance on learning tasks across a variety of domains. Whenever these problems require learning in a continual or sequential manner, however, neural networks suffer from the problem of catastrophic forgetting; they forget how to solve previous tasks after being trained on a new task, despite having the essential capacity to solve both tasks if they were trained on both simultaneously. In this paper, we propose to address this issue from a parameter space perspective and study an approach to restrict the direction of the gradient updates to avoid forgetting previously-learned data. We present the Orthogonal Gradient Descent (OGD) method, which accomplishes this goal by projecting the gradients from new tasks onto a subspace in which the neural network output on previous task does not change and the projected gradient is still in a useful direction for learning the new task. Our approach utilizes the high capacity of a neural network more efficiently and does not require storing the previously learned data that might raise privacy concerns. Experiments on common benchmarks reveal the effectiveness of the proposed OGD method.
研究动机与目标
- 解决连续任务学习中的灾难性遗忘。
- 利用先前任务的梯度方向来约束更新,而无需存储原始数据。
- 在保持先前知识的同时,利用神经网络的高容量来学习新任务。
- 提出在保持有效性的同时降低内存需求的实用 OGD 变体。
提出的方法
- 计算先前任务预测的梯度方向 {∇f_j(x; w)}。
- 使用 Gram-Schmidt 构建来自先前任务梯度的正交基 S(针对每个数据点与类别)。
- 将当前任务梯度 g 修改为 \u007etit{g} = g - sum_{v in S} proj_v(g)\u007d,确保更新与先前方向正交。
- 使用正交化后的梯度 \u007etit{g} 进行反向传播。
- 从每个先前任务存储一部分梯度(OGD-GTL 变体)以限制内存使用。
- 描述两种降低内存占用的变体:OGD-AVE(平均 logits)和 OGD-GTL(真实标签的 logits)。
- 给出正交梯度下降的算法1,包括:梯度计算、投影、参数更新以及梯度子空间的构建。
实验结果
研究问题
- RQ1在不存储 past 数据的情况下,是否可以将新任务的梯度更新限制为尽量减少对先前任务的干扰?
- RQ2将梯度投影到先前任务梯度的正交空间如何影响基于 MNIST 的多任务持续学习基准中的学习效率与最终准确率?
- RQ3降低存储需求的变体(OGD-GTL、OGD-AVE)是否能在保持性能的同时保持良好的表现?
主要发现
- OGD 在 Permuted MNIST、Rotated MNIST 和 Split MNIST 上与最先进的持续学习基线相比,达到具有竞争力甚至更优的性能 。
- OGD 在多个连续任务中保持任务特定性能,在可行时接近多任务学习,并在若干设置中优于 SGD 和 EWC 基线。
- 降低内存的 OGD 变体(如 OGD-GTL)通常表现良好,在许多实验中可以超过或匹配 A-GEM。
- 该方法依赖模型输出(logits)的梯度,而非损失函数的梯度,为保留先前学习的预测提供直接手段。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。