[論文レビュー] Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models
本論文は SurgUn を導入し、忘却を拡散モデルにおける表現干渉として再構成し、完全再訓練なしに erase と retain のバランスを強化。
Unlearning in text-to-image diffusion models often leads to uneven concept removal and unintended forgetting of unrelated capabilities. This complicates tasks such as copyright compliance, protected data mitigation, artist opt-outs, and policy-driven content updates. As models grow larger and adopt more diverse architectures, achieving precise and selective unlearning while preserving generative quality becomes increasingly challenging. We introduce SurgUn (pronounced as Surgeon), a surgical unlearning method that applies targeted weight-space updates to remove specific visual concepts in text-conditioned diffusion models. Our approach is motivated by retroactive interference theory, which holds that newly acquired memories can overwrite, suppress, or impede access to prior ones by competing for shared representational pathways. We adapt this principle to diffusion models by inducing retroactive concept interference, enabling focused destabilization of only the target concept while preserving unrelated capabilities through a novel training paradigm. SurgUn achieves high-precision unlearning across diverse settings. It performs strongly on compact U-Net based models such as Stable Diffusion v1.5, scales effectively to the larger U-Net architecture SDXL, and extends to SANA, representing an underexplored Diffusion Transformer based architecture for unlearning.
研究の動機と目的
- 著作権、アーティスト opt-out、安全性更新、および拡散モデルのコンテンツ緩和のための事後概念忘却を動機づける。
- 既存の忘却手法でターゲットを抑制または共有能力を劣化させる erase-retain の不均衡を特定する。
- ターゲット勾配上昇と distractor に driven な下降を用いて非ターゲットモード間で出力を再分配する競合ベースのフレームワークを提案する。
- ピクセル基盤の重み空間局在化を制限して保持を選択的に保存することで周辺忘却を制限する。
- SurgUn の拡散モデル複数種と忘却ベンチマークでの堅牢性を実証する。
提案手法
- 忘却を distractor 条件付き勾配競争として定式化する(ターゲット勾配上昇 vs. distractor に driven な下降)。
- 同じプロンプト文脈の下で互いに競合する非ターゲット軌道を生む意味的に多様な distractors を使用する。
- erase-retain 行動に基づいて注意ブロックを選択するためにピクセル基盤の重み空間局在化を適用する。
- UnlearnCanvas、IP-character erasure、Holistic Unlearning、EraseBench、Ring-A-Bell を SD1.5、SDXL、SANA-1.5 の上で評価する。
- アブレーションは、多様な distractors、対比競争、局在化の必要性を示し、関連概念を保存しつつ堅牢な抑制を達成する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルの忘却を完全再訓練せずに、非ターゲット概念の性能を維持しつつ実現できるか。
- RQ2競合ベースの忘却機構は削除ベースより erase-retain のバランスを改善するか。
- RQ3 distractor 条件付き勾配と局在化は周辺忘却を抑えつつ関連概念や非関連概念を保持できるか。
- RQ4様々な忘却ベンチマークとモデル変種が SurgUn の有効性に与える影響は何か。
主な発見
- SurgUn は複数のベンチマークとモデルで baseline よりも強い erase-retain バランスを達成する。
- 多様な distractors、対比競争、局在化は堅牢な抑制と関連概念の保持のために全て必要である。
- 忘却は直接的な削除や一対一の再割り当てとして見るよりも、制御された競合として捉える方が適切である。
- この手法は周辺忘却を、単一の代理へ崩壊させるのではなく複数の非ターゲットモードへ出力を分散することで低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。