Skip to main content
QUICK REVIEW

[论文解读] Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Ci Zhang, Zhaojun Ding|arXiv (Cornell University)|Feb 28, 2026
Adversarial Robustness in Machine Learning被引用 0
一句话总结

该论文揭示了扩散模型基于剪枝的无学习中的一个安全漏洞,表明被剪枝的权重位置可能泄露概念信息并使被删概念在无数据情况下得以重新出现;并提出高斯混淆防御。

ABSTRACT

Pruning-based unlearning has recently emerged as a fast, training-free, and data-independent approach to remove undesired concepts from diffusion models. It promises high efficiency and robustness, offering an attractive alternative to traditional fine-tuning or editing-based unlearning. However, in this paper we uncover a hidden danger behind this promising paradigm. We find that the locations of pruned weights, typically set to zero during unlearning, can act as side-channel signals that leak critical information about the erased concepts. To verify this vulnerability, we design a novel attack framework capable of reviving erased concepts from pruned diffusion models in a fully data-free and training-free manner. Our experiments confirm that pruning-based unlearning is not inherently secure, as erased concepts can be effectively revived without any additional data or retraining. Extensive experiments on diffusion-based unlearning based on concept related weights lead to the conclusion: once the critical concept-related weights in diffusion models are identified, our method can effectively recover the original concept regardless of how the weights are manipulated. Finally, we explore potential defense strategies and advocate safer pruning mechanisms that conceal pruning locations while preserving unlearning effectiveness, providing practical insights for designing more secure pruning-based unlearning frameworks.

研究动机与目标

  • 由于大规模训练数据和敏感概念,推动扩散模型无学习过程中的隐私与安全问题的关注。
  • 探讨被剪枝权重的位置、符号或幅值是否保留可 Recover 的信息。
  • 演示一个数据无、训练无的攻击,利用剪枝痕迹重新唤醒被删概念。
  • 提出在不牺牲无学习性能的前提下,隐藏剪枝痕迹的防御策略。

提出的方法

  • 分析剪枝权重的符号与幅值在概念复原中的重要性。
  • 提出一个包含三个组成部分的复原框架:低秩矩阵完成、Top-K 符号保留、神经元最大幅值缩放(NMS)。
  • 利用基于 SoftImpute 的低秩矩阵完成来估计缺失的权重符号。
  • 应用 Top-K 符号保留以保留高置信度符号,其他设为零,然后分配最大神经元幅值(NMS)。
  • 引入高斯混淆作为防御,通过用高斯噪声替换被剪枝的权重,并分析其对剪枝有效性与可检测性的影响。

实验结果

研究问题

  • RQ1在仅给定剪枝位置、且无数据或再训练的情况下,攻击者是否能够恢复 erased 权重符号并复活 erased 概念?
  • RQ2权重符号与幅值如何影响剪枝扩散模型中的概念复原?
  • RQ3哪些防御策略可以在不显著削弱无学习性能的前提下,遮蔽剪枝痕迹?
  • RQ4是否可以用基于高斯的剪枝防御在隐蔽性与无学习有效性之间取得平衡?

主要发现

  • 一个数据无、训练无的复原框架可以恢复超过 70% 的被剪枝权重符号。
  • 在不重新训练的情况下,被删概念的准确性可显著回升(从平均 8% 提升到 54%)。
  • 复原效果在对象无学习、艺术风格无学习、NSFW 内容无学习等任务中得到验证。
  • Top-K 符号保留加上神经元最大幅值缩放能够在剪枝后可靠地重新激活有影响力的激活模式。
  • 高斯混淆通过隐藏剪枝位置提供实用防御,同时在可控权衡下保持无学习性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。