QUICK REVIEW

[论文解读] Mitigating Task-Order Sensitivity and Forgetting via Hierarchical Second-Order Consolidation

Protik Nag, Krishnan Raghavan|arXiv (Cornell University)|Jan 31, 2026

Domain Adaptation and Few-Shot Learning被引用 0

一句话总结

HTCL 在分层框架中将快速局部适应与 Hessian 正则化的二阶全局整合结合起来，以降低持续学习中的任务顺序敏感性和遗忘，在跨任务和跨领域上实现显著的准确率提升和方差降低。

ABSTRACT

We introduce $ extbf{Hierarchical Taylor Series-based Continual Learning (HTCL)}$, a framework that couples fast local adaptation with conservative, second-order global consolidation to address the high variance introduced by random task ordering. To address task-order effects, HTCL identifies the best intra-group task sequence and integrates the resulting local updates through a Hessian-regularized Taylor expansion, yielding a consolidation step with theoretical guarantees. The approach naturally extends to an $L$-level hierarchy, enabling multiscale knowledge integration in a manner not supported by conventional single-level CL systems. Across a wide range of datasets and replay and regularization baselines, HTCL acts as a model-agnostic consolidation layer that consistently enhances performance, yielding mean accuracy gains of $7\%$ to $25\%$ while reducing the standard deviation of final accuracy by up to $68\%$ across random task permutations.

研究动机与目标

解决持续学习（CL）中强任务顺序敏感性的问题。
提出一个可行的分组策略以近似顺序不变的学习。
开发一个二阶、Hessian 正则化的整合机制以合并分组更新。
引入多层次层级以捕捉长时程的任务依赖性。
在图像、图结构和文本 CL 基准上验证 HTCL，展示更强的鲁棒性和记忆保持。

提出的方法

将任务划分为大小为 k 的不相交组，以限制组内的阶乘排列。
在每个组内穷举评估所有 k! 个组内顺序，以选择最佳的局部适应。
使用 Hessian 正则化的泰勒展开将局部组更新整合到分层全局模型（方程式 9 与方程式 6）。
引入一个正则化项，将全局模型拉向所选局部模型（λ 参数）。
给出全局模型的闭式更新：w1^{(t)} = w1^{(t-1)} + (Ht^{(t-1)} + λ I)^{-1} [ λ (wℓ^{(t)} - w1^{(t-1)}) - g^{(t-1)} ]。
将框架扩展到 L 层级，以在更快和更慢的时间尺度上逐步整合知识。

实验结果

研究问题

RQ1是否能够在不进行穷举排列评估的情况下，使任务顺序敏感性在持续学习中不变或显著降低？
RQ2分层的二阶整合是否能提高记忆保持并在不同领域中减少遗忘？
RQ3基于分组的组内任务排序加上 Hessian 基础的整合，与最先进的 CL 基线相比的表现如何？
RQ4增加层级深度对长期任务序列的稳定性和表现有何影响？

主要发现

方法	数据集	SplitMNIST 的平均准确率	SplitMNIST 的标准差	SplitMNIST 的平均遗忘	CIFAR-100 的平均准确率	CIFAR-100 的标准差	CIFAR-100 的平均遗忘	CORA 的平均准确率	CORA 的标准差	CORA 的平均遗忘	20 Newsgroups 的平均准确率	20 Newsgroups 的标准差	20 Newsgroups 的平均遗忘
SER	SplitMNIST	88.5	5.6	32.0	42.62	18.73	56.5	72.5	6.8	28.5	58.2	8.4	35.2
SER + HTCL-L2	SplitMNIST	95.6	1.8	9.8	44.7	14.9	40.0	78.3	4.2	18.2	64.5	5.6	24.8
SER + HTCL-L3	SplitMNIST	93.3	4.3	18.0	46.2	12.5	30.0	76.8	5.1	21.4	62.8	6.3	27.5
DER	SplitMNIST	86.5	4.9	35.0	40.6	17.4	58.2	70.2	7.2	30.8	55.8	9.1	38.4
DER + HTCL-L2	SplitMNIST	95.1	1.8	10.2	43.0	14.4	42.6	77.5	4.5	19.5	62.3	6.0	26.5
DER + HTCL-L3	SplitMNIST	92.3	4.3	18.8	45.2	12.0	33.0	75.2	5.4	22.8	60.5	6.8	29.2
ER	SplitMNIST	89.3	5.5	30.3	38.0	20.0	60.0	68.5	7.8	32.5	54.4	9.8	42.0
ER + HTCL-L2	SplitMNIST	92.0	3.5	12.5	41.0	17.0	48.0	74.2	5.2	22.0	58.5	6.8	32.5
ER + HTCL-L3	SplitMNIST	91.5	4.0	14.0	43.5	15.5	40.0	73.0	5.8	24.5	57.2	7.4	34.0
iCaRL	SplitMNIST	93.2	4.8	12.5	41.8	17.2	54.4	74.8	6.2	22.5	60.5	7.5	30.2
iCaRL + HTCL-L2	SplitMNIST	96.1	2.1	6.8	44.2	14.0	42.5	78.2	3.8	15.8	65.8	5.0	22.5
iCaRL + HTCL-L3	SplitMNIST	95.0	3.4	9.2	46.6	11.8	35.0	77.5	4.5	18.2	64.0	5.8	25.0
DualNet	SplitMNIST	89.2	9.0	15.0	40.6	17.5	57.0	71.8	8.5	26.2	56.5	10.2	33.5
DualNet + HTCL-L2	SplitMNIST	90.5	6.0	10.5	41.5	14.4	45.0	75.5	5.8	19.0	61.2	7.2	26.8
DualNet + HTCL-L3	SplitMNIST	91.0	5.5	9.0	44.0	12.0	36.0	76.8	5.2	17.5	62.5	6.5	24.5
SR	SplitMNIST	88.0	7.5	31.0	13.0	24.0	65.0	69.5	8.8	35.0	54.2	10.5	40.5
SR + HTCL-L2	SplitMNIST	90.0	5.0	14.0	18.5	20.0	55.0	74.0	6.0	25.5	59.6	7.5	32.7
SR + HTCL-L3	SplitMNIST	91.0	4.0	12.0	22.0	18.0	48.0	75.5	5.2	22.0	61.0	6.8	29.1
EWC	SplitMNIST	79.3	9.8	42.8	12.5	23.5	68.0	65.2	9.7	38.2	48.5	11.1	45.8

HTCL 降低了任务顺序方差：两层 HTCL（HTCL-L2）在 SplitMNIST 上方差下降 33-68%、在 CIFAR-100 上下降 17-21%，SER + HTCL-L2 实现 67.86% 的方差降低。
HTCL 改善记忆保持：平均遗忘降低最高达 70.9%（SplitMNIST 上 DER + HTCL-L2），在较长序列中每任务的标准差下降超过 30%。
HTCL 跨模态泛化：在 CORA（图）和 20 Newsgroups（文本）上方差下降约 33-38%，图像任务的平均准确率提升约 7.1-7.3 点。
观察到三大经验性收益：长期记忆保持提升、任务顺序敏感性降低，以及可控的计算开销。
更深的层级（L=3）在与回放基线结合时，对长任务序列中的遗忘抵抗力进一步增强。
跨数据集的表 1 显示 HTCL 持续降低标准差并在基线下保持或提升平均准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。