[論文レビュー] Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models
Forget-Me-Not は、注意機構の再指向を用いて、テキスト-画像拡散モデルにおける標的概念を効率的に忘却するプラグアンドプレイ手法であり、Memorization Score(M-Score)と ConceptBench で評価される。
The unlearning problem of deep learning models, once primarily an academic concern, has become a prevalent issue in the industry. The significant advances in text-to-image generation techniques have prompted global discussions on privacy, copyright, and safety, as numerous unauthorized personal IDs, content, artistic creations, and potentially harmful materials have been learned by these models and later utilized to generate and distribute uncontrolled content. To address this challenge, we propose extbf{Forget-Me-Not}, an efficient and low-cost solution designed to safely remove specified IDs, objects, or styles from a well-configured text-to-image model in as little as 30 seconds, without impairing its ability to generate other content. Alongside our method, we introduce the extbf{Memorization Score (M-Score)} and extbf{ConceptBench} to measure the models' capacity to generate general concepts, grouped into three primary categories: ID, object, and style. Using M-Score and ConceptBench, we demonstrate that Forget-Me-Not can effectively eliminate targeted concepts while maintaining the model's performance on other concepts. Furthermore, Forget-Me-Not offers two practical extensions: a) removal of potentially harmful or NSFW content, and b) enhancement of model accuracy, inclusion and diversity through extbf{concept correction and disentanglement}. It can also be adapted as a lightweight model patch for Stable Diffusion, allowing for concept manipulation and convenient distribution. To encourage future research in this critical area and promote the development of safe and inclusive generative models, we will open-source our code and ConceptBench at \href{https://github.com/SHI-Labs/Forget-Me-Not}{https://github.com/SHI-Labs/Forget-Me-Not}.
研究の動機と目的
- テキスト-画像拡散モデルにおける概念忘却を動機づけ定義し、プライバシー・安全性・著作権の懸念に対処する。
- 全体のモデル性能を低下させず、ターゲット概念を忘却する低コストのプラグアンドプレイ解決策を提供する。
- 忘却と記憶を評価する定量的指標(Memorization Score)とベンチマーク(ConceptBench)を提案する。
- Stable Diffusion のような拡散モデルに対する概念訂正・分離・軽量なモデルパッチへの拡張を示す。
提案手法
- 忘却対象概念に対応するクロスアテンションマップをUNetのクロスアテンション層全体で最小化するような attention resteering ロスを導入する。
- 忘却概念からの注意をそらすように、全モデルを再訓練することなく、クロスアテンションまたは関連パーツのみを微調整する。
- 忘却プロンプトが語彙外または不明確な場合に、正確な概念埋め込みを得るための Concept Inversion の任意使用。
- 複数概念の忘却をサポートし、ユーザーへの配布を容易にする軽量なパッチ適用アプローチを提供する。
- Memorization Score(テキスト埋め込み反転からの概念埋め込みのコサイン類似度変化に基づく)と ConceptBench を評価ツールとして定義する。
実験結果
リサーチクエスチョン
- RQ1関連のない内容を損なうことなく、テキスト-画像拡散モデルからターゲットとなる概念を忘却するにはどうすればよいか?
- RQ2軽量でプラグアンドプレイ可能な方法で複数概念の忘却を達成し、概念訂正および分離へ拡張できるか?
- RQ3拡散モデルで記憶と忘却を定量的に測定し、体系的にベンチマークするにはどうすればよいか?
主な発見
| 概念 | 初期の記憶スコア | 忘却後の記憶スコア |
|---|---|---|
| Elon Musk | 0.943 | 0.848 |
| Mickey Mouse | 0.948 | 0.836 |
| Zebra | 0.972 | 0.899 |
| 0.940 | 0.811 | |
| Apple | 0.696 | 0.493 |
| Horse | 0.877 | 0.808 |
| Van Gogh | 0.916 | 0.684 |
- Forget-Me-Not は非ターゲット概念への影響を最小限に抑えつつ、ターゲット概念を削除でき、場合によっては約30秒程度で忘却を達成する。
- この手法は、クロスアテンション層全体でターゲット概念を除去しつつ、他の概念のモデルの整合性を維持する。
- ConceptBench は概念をアイデンティティ、オブジェクト、スタイルのカテゴリに分類して忘却と記憶を評価する。
- Memorization Score は忘却後の概念埋め込みの類似度が低下することを示す(例: Elon Musk が 0.943 から 0.848 へ)
- このアプローチは NSFW コンテンツの除去と概念訂正/分離をサポートし、概念全体にわたる定性的および定量的証拠を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。