[论文解读] Online Structured Laplace Approximations For Overcoming Catastrophic Forgetting
本文提出一种Kronecker因式分解的在线拉普拉斯近似,以缓解神经网络的灾难性遗忘,在线更新高斯后验,使用块对角Kronecker因式分解的Hessian。它在50个置换MNIST任务序列上实现了超过90%的测试准确率,优于若干基线。
We introduce the Kronecker factored online Laplace approximation for overcoming catastrophic forgetting in neural networks. The method is grounded in a Bayesian online learning framework, where we recursively approximate the posterior after every task with a Gaussian, leading to a quadratic penalty on changes to the weights. The Laplace approximation requires calculating the Hessian around a mode, which is typically intractable for modern architectures. In order to make our method scalable, we leverage recent block-diagonal Kronecker factored approximations to the curvature. Our algorithm achieves over 90% test accuracy across a sequence of 50 instantiations of the permuted MNIST dataset, substantially outperforming related methods for overcoming catastrophic forgetting.
研究动机与目标
- 开发一个贝叶斯在线学习框架,以缓解神经网络的灾难性遗忘。
- 提出并实现一个Kronecker因式分解的拉普拉斯近似,用于在任务之间跟踪后验分布。
- 利用块对角Hessian结构,使该方法能够扩展到现代架构。
- 研究基于曲率的超参数正则化,以在记忆和可塑性之间取得平衡。
提出的方法
- 将贝叶斯在线学习表述为近似高斯后验 q(θ|φt),其特征为均值 μt 和精度 Λt。
- 使用两步更新:(i) 通过最大化 log p(Dt+1|θ) + log q(θ|φt) 来更新 μt+1;(ii) 设 Λt+1 = Ht+1(μt+1) + Λt,使用新数据对数似然的Hessian。
- 使用基于费舍尔信息的半正定矩阵近似海森,确保 Λt 为PSD。
- 采用块对角Kronecker因式分解的海森,使每一层的曲率为 Hl = Ql ⊗ Hl,便于通过 vec(Wl−Wl*) 高效更新。
- 将后验表示为跨层的矩阵正态分布,并在层内维护曲率相互作用,而非跨层。
- 引入对海森的正则化乘数 λ,以控制近似后验的宽度:Λt+1 = λ Ht+1(μt+1) + Λt。
实验结果
研究问题
- RQ1具有Kronecker因式分解曲率的在线拉普拉斯近似,能否在长任务序列中有效缓解神经网络的遗忘?
- RQ2在层内包含参数间相互作用(Kronecker因式分解)是否优于对角近似用于持续学习?
- RQ3正则化超参数λ 对在线持续学习中的记忆与可塑性的影响?
- RQ4与EWC和SI相比,所提方法在视觉及基于MNIST的持续学习基准上的扩展性如何?
- RQ5每个任务重新计算曲率有必要吗,还是保留曲率就足以在不损害性能的情况下?
主要发现
- Kronecker因式分解的在线拉普拉斯在50个置换MNIST任务中的平均测试准确率超过90%,接近联合训练性能。
- Kronecker因式分解曲率在记住旧任务方面始终优于对角曲率,同时对新任务仍具备能力。
- introducing λ helps regulate the posterior width; for permuted MNIST, λ≈3 yielded optimal balance between memory and learning new tasks.
- Diagonal (EWC-like) approximations underperform compared to Kronecker-factored approaches, highlighting the importance of weight interactions within layers.
- Regularization remains beneficial even with Kronecker factorization, suggesting potential gains from better curvature approximations.
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。