Skip to main content
QUICK REVIEW

[论文解读] Mitigating Task-Order Sensitivity and Forgetting via Hierarchical Second-Order Consolidation

Protik Nag, Krishnan Raghavan|arXiv (Cornell University)|Jan 31, 2026
Domain Adaptation and Few-Shot Learning被引用 0
一句话总结

HTCL 在分层框架中将快速局部适应与 Hessian 正则化的二阶全局整合结合起来,以降低持续学习中的任务顺序敏感性和遗忘,在跨任务和跨领域上实现显著的准确率提升和方差降低。

ABSTRACT

We introduce $ extbf{Hierarchical Taylor Series-based Continual Learning (HTCL)}$, a framework that couples fast local adaptation with conservative, second-order global consolidation to address the high variance introduced by random task ordering. To address task-order effects, HTCL identifies the best intra-group task sequence and integrates the resulting local updates through a Hessian-regularized Taylor expansion, yielding a consolidation step with theoretical guarantees. The approach naturally extends to an $L$-level hierarchy, enabling multiscale knowledge integration in a manner not supported by conventional single-level CL systems. Across a wide range of datasets and replay and regularization baselines, HTCL acts as a model-agnostic consolidation layer that consistently enhances performance, yielding mean accuracy gains of $7\%$ to $25\%$ while reducing the standard deviation of final accuracy by up to $68\%$ across random task permutations.

研究动机与目标

  • 解决持续学习(CL)中强任务顺序敏感性的问题。
  • 提出一个可行的分组策略以近似顺序不变的学习。
  • 开发一个二阶、Hessian 正则化的整合机制以合并分组更新。
  • 引入多层次层级以捕捉长时程的任务依赖性。
  • 在图像、图结构和文本 CL 基准上验证 HTCL,展示更强的鲁棒性和记忆保持。

提出的方法

  • 将任务划分为大小为 k 的不相交组,以限制组内的阶乘排列。
  • 在每个组内穷举评估所有 k! 个组内顺序,以选择最佳的局部适应。
  • 使用 Hessian 正则化的泰勒展开将局部组更新整合到分层全局模型(方程式 9 与方程式 6)。
  • 引入一个正则化项,将全局模型拉向所选局部模型(λ 参数)。
  • 给出全局模型的闭式更新:w1^{(t)} = w1^{(t-1)} + (Ht^{(t-1)} + λ I)^{-1} [ λ (wℓ^{(t)} - w1^{(t-1)}) - g^{(t-1)} ]。
  • 将框架扩展到 L 层级,以在更快和更慢的时间尺度上逐步整合知识。

实验结果

研究问题

  • RQ1是否能够在不进行穷举排列评估的情况下,使任务顺序敏感性在持续学习中不变或显著降低?
  • RQ2分层的二阶整合是否能提高记忆保持并在不同领域中减少遗忘?
  • RQ3基于分组的组内任务排序加上 Hessian 基础的整合,与最先进的 CL 基线相比的表现如何?
  • RQ4增加层级深度对长期任务序列的稳定性和表现有何影响?

主要发现

方法数据集SplitMNIST 的平均准确率SplitMNIST 的标准差SplitMNIST 的平均遗忘CIFAR-100 的平均准确率CIFAR-100 的标准差CIFAR-100 的平均遗忘CORA 的平均准确率CORA 的标准差CORA 的平均遗忘20 Newsgroups 的平均准确率20 Newsgroups 的标准差20 Newsgroups 的平均遗忘
SERSplitMNIST88.55.632.042.6218.7356.572.56.828.558.28.435.2
SER + HTCL-L2SplitMNIST95.61.89.844.714.940.078.34.218.264.55.624.8
SER + HTCL-L3SplitMNIST93.34.318.046.212.530.076.85.121.462.86.327.5
DERSplitMNIST86.54.935.040.617.458.270.27.230.855.89.138.4
DER + HTCL-L2SplitMNIST95.11.810.243.014.442.677.54.519.562.36.026.5
DER + HTCL-L3SplitMNIST92.34.318.845.212.033.075.25.422.860.56.829.2
ERSplitMNIST89.35.530.338.020.060.068.57.832.554.49.842.0
ER + HTCL-L2SplitMNIST92.03.512.541.017.048.074.25.222.058.56.832.5
ER + HTCL-L3SplitMNIST91.54.014.043.515.540.073.05.824.557.27.434.0
iCaRLSplitMNIST93.24.812.541.817.254.474.86.222.560.57.530.2
iCaRL + HTCL-L2SplitMNIST96.12.16.844.214.042.578.23.815.865.85.022.5
iCaRL + HTCL-L3SplitMNIST95.03.49.246.611.835.077.54.518.264.05.825.0
DualNetSplitMNIST89.29.015.040.617.557.071.88.526.256.510.233.5
DualNet + HTCL-L2SplitMNIST90.56.010.541.514.445.075.55.819.061.27.226.8
DualNet + HTCL-L3SplitMNIST91.05.59.044.012.036.076.85.217.562.56.524.5
SRSplitMNIST88.07.531.013.024.065.069.58.835.054.210.540.5
SR + HTCL-L2SplitMNIST90.05.014.018.520.055.074.06.025.559.67.532.7
SR + HTCL-L3SplitMNIST91.04.012.022.018.048.075.55.222.061.06.829.1
EWCSplitMNIST79.39.842.812.523.568.065.29.738.248.511.145.8
  • HTCL 降低了任务顺序方差:两层 HTCL(HTCL-L2)在 SplitMNIST 上方差下降 33-68%、在 CIFAR-100 上下降 17-21%,SER + HTCL-L2 实现 67.86% 的方差降低。
  • HTCL 改善记忆保持:平均遗忘降低最高达 70.9%(SplitMNIST 上 DER + HTCL-L2),在较长序列中每任务的标准差下降超过 30%。
  • HTCL 跨模态泛化:在 CORA(图)和 20 Newsgroups(文本)上方差下降约 33-38%,图像任务的平均准确率提升约 7.1-7.3 点。
  • 观察到三大经验性收益:长期记忆保持提升、任务顺序敏感性降低,以及可控的计算开销。
  • 更深的层级(L=3)在与回放基线结合时,对长任务序列中的遗忘抵抗力进一步增强。
  • 跨数据集的表 1 显示 HTCL 持续降低标准差并在基线下保持或提升平均准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。