QUICK REVIEW
[论文解读] Deep Unlearning via Randomized Conditionally Independent Hessians
Ronak Mehta, Sourav Pal|arXiv (Cornell University)|Jan 1, 2022
Stochastic Gradient Optimization Techniques被引用 5
一句话总结
该论文提出了一种可扩展的深度遗忘方法,利用 L-CODEC(一种随机化的条件独立系数)识别出一组最小的模型参数——即马尔可夫毯(Markov Blanket)——通过更新这些参数可有效遗忘特定训练样本,而无需完整微调。该方法避免了对大规模海森矩阵进行计算上不可行的求逆操作,从而在大型视觉和自然语言处理模型(包括 ResNets、Transformer 和人脸识别系统)中实现了近似遗忘,具备强大的隐私保障(例如 ϵ = 10⁻⁵),且对剩余数据的性能下降极小。
ABSTRACT
No description supplied
研究动机与目标
- 解决由于需要求逆高维海森矩阵而导致的大规模深度学习模型中基于海森矩阵的遗忘方法计算不可行的问题。
- 在大规模视觉和自然语言处理模型(如 ResNets、Transformer 和人脸识别系统)中实现实际可行的近似遗忘,其中完整微调不可行。
- 开发一种方法,识别出一个最小的、条件独立的参数子集(即马尔可夫毯),其更新可有效消除特定训练样本的影响。
- 提供一种可扩展的、分布无关的优化方法替代方案,避免矩阵求逆,同时保持强隐私保障(例如 (ϵ, δ)-遗忘)。
提出的方法
- 提出 L-CODEC,作为条件独立系数的一种变体,用于识别与给定训练样本最条件相关的一组参数的马尔可夫毯。
- 以分布无关的方式使用输入扰动来估计条件依赖关系,并选择用于遗忘的关键参数子集。
- 在识别出的马尔可夫毯上应用块坐标更新策略,而非对整个模型进行海森矩阵求逆,从而大幅降低计算成本。
- 采用单次遗忘更新形式 w′ = ŵ + g(ŵ, z′),其中 g 由 L-CODEC 识别出的参数子集导出,近似实现不包含该样本的微调效果。
- 通过仅选择最具影响力的参数片段(例如条件依赖最大的部分)来使用 L-FOCI 的一种“轻量级”变体,以减少 VGGFace 等大型模型(具有 25088×4096 层)中的内存开销。
- 在多种架构(CNN、ResNets、Transformer)和任务(人脸识别、行人重识别)上验证该方法,测量被移除样本与剩余数据的性能下降。
实验结果
研究问题
- RQ1一种分布无关的、随机化的方法能否在不进行完整海森矩阵求逆的情况下,识别出一组最小的模型参数,其更新可有效遗忘特定训练样本?
- RQ2L-CODEC 在多大程度上能识别出马尔可夫毯,从而在大型深度模型(包括视觉和自然语言处理系统)中实现 (ϵ, δ)-遗忘?
- RQ3与完整微调或其他近似遗忘方法相比,基于 L-CODEC 的遗忘方法在被移除样本与剩余数据上的准确率下降表现如何?
- RQ4在严格隐私约束(例如 ϵ = 10⁻⁵)下,该方法最多可遗忘多少样本,而不会显著降低模型的实用性?
主要发现
- 在使用 VGGFace 的人脸识别任务中,从单个身份中擦除 100 张图像后,该类别的准确率在 10 次移除内降至接近零,而剩余数据的准确率保持稳定,且 ϵ = 10⁻⁵。
- 当 ϵ = 0.1 时,该方法在 Market-1501 行人重识别模型上支持超过 100 次样本移除,且 mAP 分数未出现明显下降。
- 在 MNIST 和 CIFAR-10 模型上,被移除样本的剩余准确率显著下降,同时梯度范数也明显减小,表明遗忘效果显著。
- 该方法成功实现了视觉模型中整个类别的遗忘,激活图显示被擦除样本的特征显著变化,而非被擦除样本则保持稳定。
- 在 VGGFace 等大型模型(具有 25088×4096 层)中,尽管完整海森矩阵求逆因内存限制而不可行,但“轻量级” L-FOCI 变体(单个片段选择)仍成功实现了遗忘。
- 该方法在具备数亿参数的模型中也表现出可扩展性,使原本被认为计算不可行的场景中实现了近似遗忘。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。