Skip to main content
QUICK REVIEW

[论文解读] Why Some Models Resist Unlearning: A Linear Stability Perspective

Wei-Kai Chang, Rajiv Khanna|arXiv (Cornell University)|Feb 3, 2026
Stochastic Gradient Optimization Techniques被引用 0
一句话总结

本论文为机器去学习开发了线性稳定性框架,提出数据一致性度量来预测忘记特定数据何时会收敛或发散,并表明记忆化在直觉上会让忘记更容易。它耦合保留/忘记的交互,并通过海森矩阵分析和CNN热图来验证预测。

ABSTRACT

Machine unlearning, the ability to erase the effect of specific training samples without retraining from scratch, is critical for privacy, regulation, and efficiency. However, most progress in unlearning has been empirical, with little theoretical understanding of when and why unlearning works. We tackle this gap by framing unlearning through the lens of asymptotic linear stability to capture the interaction between optimization dynamics and data geometry. The key quantity in our analysis is data coherence which is the cross sample alignment of loss surface directions near the optimum. We decompose coherence along three axes: within the retain set, within the forget set, and between them, and prove tight stability thresholds that separate convergence from divergence. To further link data properties to forgettability, we study a two layer ReLU CNN under a signal plus noise model and show that stronger memorization makes forgetting easier: when the signal to noise ratio (SNR) is lower, cross sample alignment is weaker, reducing coherence and making unlearning easier; conversely, high SNR, highly aligned models resist unlearning. For empirical verification, we show that Hessian tests and CNN heatmaps align closely with the predicted boundary, mapping the stability frontier of gradient based unlearning as a function of batching, mixing, and data/model alignment. Our analysis is grounded in random matrix theory tools and provides the first principled account of the trade offs between memorization, coherence, and unlearning.

研究动机与目标

  • 需要对机器去学习有一个超越经验方法的 principled 理论理解的动机。
  • 围绕预训练极小值开发一个线性稳定性框架以分析遗忘动力学。
  • 引入基于相干性(coherence)的度量来量化保留集合与忘记集合之间的交互。
  • 通过信号+噪声数据模型将记忆/记忆强度与可忘性联系起来。
  • 提供理论阈值并通过经验验证当梯度-based 去学习收敛或发散。

提出的方法

  • 在最优解 w* 周围对 SGD 动力学线性化,并将更新建模为 w_{k+1} = J_k w_k,其中 J_k 为随机混合算子。
  • 将数据分解为保留集合和忘记集合,推导一个混合更新规则,对保留数据进行下降,对忘记数据进行上升。
  • 定义混合 Hessian D 和混合相干性 S,以捕捉跨集合曲率交互与对齐。
  • 以相干性 σ 和混合 Hessian 的特征值为条件,建立稳定性阈值(发散与收敛条件)。
  • 在信号+噪声数据模型下分析两层 ReLU CNN,将记忆(低信噪比)与更容易的忘记性联系起来。
  • 通过基于海森矩阵的测试和 CNN 热图的经验验证,与预测的稳定性边界一致。

实验结果

研究问题

  • RQ1在预训练最小值附近,梯度基去学习在何种精确条件下收敛或发散?
  • RQ2保留数据与忘记数据之间的交互(保留与忘记的相干性)如何影响去学习的稳定性?
  • RQ3数据几何与相干性如何与模型的记忆倾向及其忘记性相关?
  • RQ4算法选择(批量大小、忘记强度、混合方式)如何影响去学习的稳定性边界?
  • RQ5经验指标(海森谱、忘记/保留热图)是否支持所提出的稳定性边界?

主要发现

  • 建立了一个稳定性边界,将基于数据相干性和混合 Hessian 特征值的条件区分为收敛(稳定)和发散(不稳定)的去学习。
  • 当混合 Hessian 的特征值超过一个与相干性相关的阈值时发生发散,而在相应界限以下可能收敛。
  • 更强的记忆(更低的信噪比)会降低跨样本梯度相干性,扩大稳定忘记区域并使去学习更容易。
  • 保留与忘记方向之间的高相干性会通过对齐更新方向来抵制去学习,阻碍从原始极小值的逃逸。
  • 通过海森测试和 CNN 热图的经验分析,在不同的小批量和数据/模型对齐下与预测边界一致。
  • 该工作提供了记忆、数据几何与去学习动力学之间的原则性联系。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。