[论文解读] Mass Concept Erasure in Diffusion Models with Concept Hierarchy
本文提出一个父–子概念层次结构,以在扩散模型中实现分组级别的大规模概念消除,并提出 SuPLoRA,通过在 LoRA 的下投影冻结的情况下仅更新上投影来保持超类型生成,从而在消除与生成质量之间取得更好平衡。
The success of diffusion models has raised concerns about the generation of unsafe or harmful content, prompting concept erasure approaches that fine-tune modules to suppress specific concepts while preserving general generative capabilities. However, as the number of erased concepts grows, these methods often become inefficient and ineffective, since each concept requires a separate set of fine-tuned parameters and may degrade the overall generation quality. In this work, we propose a supertype-subtype concept hierarchy that organizes erased concepts into a parent-child structure. Each erased concept is treated as a child node, and semantically related concepts (e.g., macaw, and bald eagle) are grouped under a shared parent node, referred to as a supertype concept (e.g., bird). Rather than erasing concepts individually, we introduce an effective and efficient group-wise suppression method, where semantically similar concepts are grouped and erased jointly by sharing a single set of learnable parameters. During the erasure phase, standard diffusion regularization is applied to preserve denoising process in unmasked regions. To mitigate the degradation of supertype generation caused by excessive erasure of semantically related subtypes, we propose a novel method called Supertype-Preserving Low-Rank Adaptation (SuPLoRA), which encodes the supertype concept information in the frozen down-projection matrix and updates only the up-projection matrix during erasure. Theoretical analysis demonstrates the effectiveness of SuPLoRA in mitigating generation performance degradation. We construct a more challenging benchmark that requires simultaneous erasure of concepts across diverse domains, including celebrities, objects, and pornographic content.
研究动机与目标
- 激励在不牺牲扩散模型的一般生成能力的前提下消除多个不良概念的问题。
- 提出一个两级概念层次,将语义相关的被消除概念在超类型概念之下进行分组。
- 开发一个分组消除机制,通过共享单一参数集来抑制被分组的概念,同时通过扩散正则化来保护未掩盖区域的去噪。
- 引入 SuPLoRA,通过在冻结下投影的 LoRA 设置中仅更新上投影来保持超类型生成。
- 提供理论分析与实证证据,显示在现有大规模消除方法之上实现了更高的效率和生成保留性。
提出的方法
- 构建一个超类型–子类型概念层次结构,被消除的概念作为子节点聚合在超类型父概念下。
- 使用 MACE 风格的基于注意力的抑制,结合共享单一参数集共同消除分组概念,同时对未遮盖区域应用扩散正则化。
- 通过冻结下投影矩阵 B、仅训练每个超类型的上投影矩阵 A 来形成 SuPLoRA(Supertype-Preserving Low-Rank Adaptation),确保更新在正交于超类型梯度子空间。
- 将 B 初始化为跨越来自输入嵌入的超类型子空间正交补的张量,然后通过知识蒸馏将多个 SuPLoRA 模块融合,以获得最终的 W*,从而保留一般生成能力。
- 提供理论依据,表明 SuPLoRA 能在大规模消除过程中缓解超类型概念的退化。
实验结果
研究问题
- RQ1概念层次结构是否能够在不按比例增加参数数量的情况下实现对语义相关概念的高效分组式消除?
- RQ2保持超类型的生成是否需要将更新约束为正交于超类型子空间,且 SuPLoRA 是否能在实践中实现这一点?
- RQ3在消除效果及对领域特定、MS-COCO 及超类型生成的保持方面,分组式消除与 SuPLoRA 相较于逐概念消除和其他大规模消除方法有何差异?
- RQ4提出的层次结构和 SuPLoRA 对大规模消除过程中的存储与训练效率有何影响?
主要发现
- 概念层次结构实现了分组式消除,相较于逐概念方法,参数增长更小且效率更高。
- SuPLoRA 通过冻结下投影、仅更新上投影,能够有效保持超类型生成,具备理论支撑。
- 实证结果显示在对象、名人、和色情等领域,消除目标概念与保持一般及超类型生成之间实现了有利的权衡。
- 该方法在保持领域特定准确性和 MS-COCO 生成能力的同时实现强力消除,并相较于基线如 MACE 具有更低的存储和训练时间。
- 知识蒸馏将多个 SuPLoRA 模块整合为最终模型,既保留消除效果又保留一般生成能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。