[论文解读] Mitigating Task-Order Sensitivity and Forgetting via Hierarchical Second-Order Consolidation
HTCL 在分层框架中将快速局部适应与 Hessian 正则化的二阶全局整合结合起来,以降低持续学习中的任务顺序敏感性和遗忘,在跨任务和跨领域上实现显著的准确率提升和方差降低。
We introduce $ extbf{Hierarchical Taylor Series-based Continual Learning (HTCL)}$, a framework that couples fast local adaptation with conservative, second-order global consolidation to address the high variance introduced by random task ordering. To address task-order effects, HTCL identifies the best intra-group task sequence and integrates the resulting local updates through a Hessian-regularized Taylor expansion, yielding a consolidation step with theoretical guarantees. The approach naturally extends to an $L$-level hierarchy, enabling multiscale knowledge integration in a manner not supported by conventional single-level CL systems. Across a wide range of datasets and replay and regularization baselines, HTCL acts as a model-agnostic consolidation layer that consistently enhances performance, yielding mean accuracy gains of $7\%$ to $25\%$ while reducing the standard deviation of final accuracy by up to $68\%$ across random task permutations.
研究动机与目标
- 解决持续学习(CL)中强任务顺序敏感性的问题。
- 提出一个可行的分组策略以近似顺序不变的学习。
- 开发一个二阶、Hessian 正则化的整合机制以合并分组更新。
- 引入多层次层级以捕捉长时程的任务依赖性。
- 在图像、图结构和文本 CL 基准上验证 HTCL,展示更强的鲁棒性和记忆保持。
提出的方法
- 将任务划分为大小为 k 的不相交组,以限制组内的阶乘排列。
- 在每个组内穷举评估所有 k! 个组内顺序,以选择最佳的局部适应。
- 使用 Hessian 正则化的泰勒展开将局部组更新整合到分层全局模型(方程式 9 与方程式 6)。
- 引入一个正则化项,将全局模型拉向所选局部模型(λ 参数)。
- 给出全局模型的闭式更新:w1^{(t)} = w1^{(t-1)} + (Ht^{(t-1)} + λ I)^{-1} [ λ (wℓ^{(t)} - w1^{(t-1)}) - g^{(t-1)} ]。
- 将框架扩展到 L 层级,以在更快和更慢的时间尺度上逐步整合知识。
实验结果
研究问题
- RQ1是否能够在不进行穷举排列评估的情况下,使任务顺序敏感性在持续学习中不变或显著降低?
- RQ2分层的二阶整合是否能提高记忆保持并在不同领域中减少遗忘?
- RQ3基于分组的组内任务排序加上 Hessian 基础的整合,与最先进的 CL 基线相比的表现如何?
- RQ4增加层级深度对长期任务序列的稳定性和表现有何影响?
主要发现
| 方法 | 数据集 | SplitMNIST 的平均准确率 | SplitMNIST 的标准差 | SplitMNIST 的平均遗忘 | CIFAR-100 的平均准确率 | CIFAR-100 的标准差 | CIFAR-100 的平均遗忘 | CORA 的平均准确率 | CORA 的标准差 | CORA 的平均遗忘 | 20 Newsgroups 的平均准确率 | 20 Newsgroups 的标准差 | 20 Newsgroups 的平均遗忘 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SER | SplitMNIST | 88.5 | 5.6 | 32.0 | 42.62 | 18.73 | 56.5 | 72.5 | 6.8 | 28.5 | 58.2 | 8.4 | 35.2 |
| SER + HTCL-L2 | SplitMNIST | 95.6 | 1.8 | 9.8 | 44.7 | 14.9 | 40.0 | 78.3 | 4.2 | 18.2 | 64.5 | 5.6 | 24.8 |
| SER + HTCL-L3 | SplitMNIST | 93.3 | 4.3 | 18.0 | 46.2 | 12.5 | 30.0 | 76.8 | 5.1 | 21.4 | 62.8 | 6.3 | 27.5 |
| DER | SplitMNIST | 86.5 | 4.9 | 35.0 | 40.6 | 17.4 | 58.2 | 70.2 | 7.2 | 30.8 | 55.8 | 9.1 | 38.4 |
| DER + HTCL-L2 | SplitMNIST | 95.1 | 1.8 | 10.2 | 43.0 | 14.4 | 42.6 | 77.5 | 4.5 | 19.5 | 62.3 | 6.0 | 26.5 |
| DER + HTCL-L3 | SplitMNIST | 92.3 | 4.3 | 18.8 | 45.2 | 12.0 | 33.0 | 75.2 | 5.4 | 22.8 | 60.5 | 6.8 | 29.2 |
| ER | SplitMNIST | 89.3 | 5.5 | 30.3 | 38.0 | 20.0 | 60.0 | 68.5 | 7.8 | 32.5 | 54.4 | 9.8 | 42.0 |
| ER + HTCL-L2 | SplitMNIST | 92.0 | 3.5 | 12.5 | 41.0 | 17.0 | 48.0 | 74.2 | 5.2 | 22.0 | 58.5 | 6.8 | 32.5 |
| ER + HTCL-L3 | SplitMNIST | 91.5 | 4.0 | 14.0 | 43.5 | 15.5 | 40.0 | 73.0 | 5.8 | 24.5 | 57.2 | 7.4 | 34.0 |
| iCaRL | SplitMNIST | 93.2 | 4.8 | 12.5 | 41.8 | 17.2 | 54.4 | 74.8 | 6.2 | 22.5 | 60.5 | 7.5 | 30.2 |
| iCaRL + HTCL-L2 | SplitMNIST | 96.1 | 2.1 | 6.8 | 44.2 | 14.0 | 42.5 | 78.2 | 3.8 | 15.8 | 65.8 | 5.0 | 22.5 |
| iCaRL + HTCL-L3 | SplitMNIST | 95.0 | 3.4 | 9.2 | 46.6 | 11.8 | 35.0 | 77.5 | 4.5 | 18.2 | 64.0 | 5.8 | 25.0 |
| DualNet | SplitMNIST | 89.2 | 9.0 | 15.0 | 40.6 | 17.5 | 57.0 | 71.8 | 8.5 | 26.2 | 56.5 | 10.2 | 33.5 |
| DualNet + HTCL-L2 | SplitMNIST | 90.5 | 6.0 | 10.5 | 41.5 | 14.4 | 45.0 | 75.5 | 5.8 | 19.0 | 61.2 | 7.2 | 26.8 |
| DualNet + HTCL-L3 | SplitMNIST | 91.0 | 5.5 | 9.0 | 44.0 | 12.0 | 36.0 | 76.8 | 5.2 | 17.5 | 62.5 | 6.5 | 24.5 |
| SR | SplitMNIST | 88.0 | 7.5 | 31.0 | 13.0 | 24.0 | 65.0 | 69.5 | 8.8 | 35.0 | 54.2 | 10.5 | 40.5 |
| SR + HTCL-L2 | SplitMNIST | 90.0 | 5.0 | 14.0 | 18.5 | 20.0 | 55.0 | 74.0 | 6.0 | 25.5 | 59.6 | 7.5 | 32.7 |
| SR + HTCL-L3 | SplitMNIST | 91.0 | 4.0 | 12.0 | 22.0 | 18.0 | 48.0 | 75.5 | 5.2 | 22.0 | 61.0 | 6.8 | 29.1 |
| EWC | SplitMNIST | 79.3 | 9.8 | 42.8 | 12.5 | 23.5 | 68.0 | 65.2 | 9.7 | 38.2 | 48.5 | 11.1 | 45.8 |
- HTCL 降低了任务顺序方差:两层 HTCL(HTCL-L2)在 SplitMNIST 上方差下降 33-68%、在 CIFAR-100 上下降 17-21%,SER + HTCL-L2 实现 67.86% 的方差降低。
- HTCL 改善记忆保持:平均遗忘降低最高达 70.9%(SplitMNIST 上 DER + HTCL-L2),在较长序列中每任务的标准差下降超过 30%。
- HTCL 跨模态泛化:在 CORA(图)和 20 Newsgroups(文本)上方差下降约 33-38%,图像任务的平均准确率提升约 7.1-7.3 点。
- 观察到三大经验性收益:长期记忆保持提升、任务顺序敏感性降低,以及可控的计算开销。
- 更深的层级(L=3)在与回放基线结合时,对长任务序列中的遗忘抵抗力进一步增强。
- 跨数据集的表 1 显示 HTCL 持续降低标准差并在基线下保持或提升平均准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。