[论文解读] Understanding the Role of Training Regimes in Continual Learning
本文分析了简单的训练方案( dropout、学习率衰减、较小的批量大小)如何塑造损失景观,以在持续学习中减少灾难性遗忘,并提出更宽的极小值能带来更好的稳定性。
Catastrophic forgetting affects the training of neural networks, limiting their ability to learn multiple tasks sequentially. From the perspective of the well established plasticity-stability dilemma, neural networks tend to be overly plastic, lacking the stability necessary to prevent the forgetting of previous knowledge, which means that as learning progresses, networks tend to forget previously seen tasks. This phenomenon coined in the continual learning literature, has attracted much attention lately, and several families of approaches have been proposed with different degrees of success. However, there has been limited prior work extensively analyzing the impact that different training regimes -- learning rate, batch size, regularization method-- can have on forgetting. In this work, we depart from the typical approach of altering the learning algorithm to improve stability. Instead, we hypothesize that the geometrical properties of the local minima found for each task play an important role in the overall degree of forgetting. In particular, we study the effect of dropout, learning rate decay, and batch size, on forming training regimes that widen the tasks' local minima and consequently, on helping it not to forget catastrophically. Our study provides practical insights to improve stability via simple yet effective techniques that outperform alternative baselines.
研究动机与目标
- 在没有旧任务数据访问的情况下,研究序贯任务学习中的灾难性遗忘。
- 通过损失景观分析将遗忘与局部极小值的几何结构联系起来。
- 评估常见的训练方案(dropout、学习率衰减、批量大小)作为实用工具,以增大极小值宽度并提高稳定性。
- 在标准基准上将简单训练方案与更复杂的持续学习方法进行比较。
提出的方法
- 使用双任务损失和围绕任务极小值的二阶泰勒展开来建模遗忘,以将遗忘与 Hessian 相关联。
- 使用界 F1 ≈ (1/2) Δw^T Hessian(w1*) Δw 将遗忘与曲率及参数位移联系起来。
- 通过最大的 Hessian 特征值 λ1^max 经验估计 Hessian 宽度,以评估其与遗忘的关系。
- 通过 dropout、学习率调度和较小的批量大小进行实验,创建扩大极小值宽度并减少 Δw 的训练方案。
- 在旋转 MNIST 和置换 MNIST 上评估训练方案,以说明宽极小值/窄极小值的直觉。
- 将稳定 SGD 与塑性(朴素)SGD 以及最先进的持续学习方法在 MF 基准上进行比较。
实验结果
研究问题
- RQ1损失在任务极小值周围的曲率如何与序列任务学习中的遗忘相关?
- RQ2是否通过扩大极小值宽度的训练方案(例如 dropout、初始学习率较高并衰减、较小的批量大小)可以减少遗忘?
- RQ3在标准基准上,简单的优化技术能否比复杂的持续学习方法表现更好?
- RQ4在跨任务的情况下,Hessian 宽度与遗忘之间的经验关系是什么?
主要发现
- 更宽的极小值(较小的 Hessian 特征值)在 Rotated MNIST 与 Permuted MNIST 上与较少的遗忘相关。
- Dropout、较大初始学习率并衰减、以及较小的批量大小会诱导更宽的极小值以及任务之间参数位移更小。
- 稳定 SGD 相对于塑性 SGD 在遗忘方面有更大改进,并且在一些基于正则化和基于记忆的持续学习方法上,在标准基准上可能超越它们。
- 遗忘界的紧致性取决于 Δw 与 Hessian 谱的方向关系,突出景观几何在遗忘中的作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。