Skip to main content
QUICK REVIEW

[論文レビュー] ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models

Ignacy Kolton, Kacper Marzol|arXiv (Cornell University)|Jan 30, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

ReLAPSe は、未学習の拡散モデルにおける概念復元を検証可能な報酬を持つ強化学習問題として再定式化し、消去された概念を回復する効率的で転送可能な敵対的プロンプトを可能にします。

ABSTRACT

Machine unlearning is a key defense mechanism for removing unauthorized concepts from text-to-image diffusion models, yet recent evidence shows that latent visual information often persists after unlearning. Existing adversarial approaches for exploiting this leakage are constrained by fundamental limitations: optimization-based methods are computationally expensive due to per-instance iterative search. At the same time, reasoning-based and heuristic techniques lack direct feedback from the target model's latent visual representations. To address these challenges, we introduce ReLAPSe, a policy-based adversarial framework that reformulates concept restoration as a reinforcement learning problem. ReLAPSe trains an agent using Reinforcement Learning with Verifiable Rewards (RLVR), leveraging the diffusion model's noise prediction loss as a model-intrinsic and verifiable feedback signal. This closed-loop design directly aligns textual prompt manipulation with latent visual residuals, enabling the agent to learn transferable restoration strategies rather than optimizing isolated prompts. By pioneering the shift from per-instance optimization to global policy learning, ReLAPSe achieves efficient, near-real-time recovery of fine-grained identities and styles across multiple state-of-the-art unlearning methods, providing a scalable tool for rigorous red-teaming of unlearned diffusion models. Some experimental evaluations involve sensitive visual concepts, such as nudity. Code is available at https://github.com/gmum/ReLaPSe

研究の動機と目的

  • テキスト-to-画像拡散モデルにおける概念消去の robust な評価を標準的な prompting を超えて動機づける。
  • プロンプトをモデルの残存表現と整列させることによって潜在的な視覚情報を回復することを目指す。
  • 対象と未学習手法を超えて敵対的プロンプトの転送性を可能にするポリシーを提供する枠組みを提案する。
  • 未学習のロバスト性を評価・改善する診断的なレッドチーミングのためのスケーラブルなツールを提供する。

提案手法

  • コンセプト復元を、文脈に条件づけられた敵対的プロンプトを生成するポリシーを用いた強化学習タスクとして定式化する。
  • 検証可能な報酬を用いた強化学習(RLVR)を用いて、拡散モデルのノイズ予測損失からモデル内部のフィードバックを取得する。
  • グループ相対的報酬最適化(GRPO)を用いて、プロンプトグループ内のグループ相対利点に基づいてプロンプト生成ポリシーを更新する。
  • 報酬を、複数の拡散タイムステップに渡る無条件プロンプト基準と比較したノイズ予測精度の平均的改善として定義する。
  • 2 種の訓練設定を導入する:個別ターゲットに特化したプロンプト最適化(Single-Prompt Optimization)と、ターゲット間で共有・転送可能なポリシーを用いた多プロンプト最適化(Multi-Prompt Optimization)。
Figure 2 : Overview of our prompt optimization framework. A frozen, unlearned text-to-image diffusion model is probed by an LLM that generates candidate prompts. For each prompt, we measure the improvement in noise prediction accuracy relative to an unconditional baseline across multiple diffusion t
Figure 2 : Overview of our prompt optimization framework. A frozen, unlearned text-to-image diffusion model is probed by an LLM that generates candidate prompts. For each prompt, we measure the improvement in noise prediction accuracy relative to an unconditional baseline across multiple diffusion t

実験結果

リサーチクエスチョン

  • RQ1パリシー-based なプロンプト探索は、個別インスタンス最適化よりも効果的に未学習拡散モデルの消去済み概念を回復できるか。
  • RQ2 RLVR はテキストプロンプトを潜在的な視覚残存と整合させる検証可能なフィードバック信号を提供するか。
  • RQ3 多プロンプト(グローバル)ポリシーは、単一プロンプト最適化と同程度に多様な概念と未学習手法へ一般化できるか。
  • RQ4 ReLAPSe は最新の未学習技術全体で概念消去の堅牢性をどの程度定量化・ストレステストできるか。

主な発見

  • ReLAPSe は、複数の未学習手法と概念カテゴリに対して、最新の攻撃手法と比較して競争力のある、あるいは優れた攻撃成功率を達成する。
  • 単一プロンプト設定は、個別インスタンスに対する復元力が最も強く、特定ターゲットへの適応性が高いことを示す。
  • 多プロンプト設定は、ターゲットごとの最適化なしで広範なレッドチーミングに適したスケーラブルで転送性の高いプロンプト生成を示す。
  • ReLAPSe は、未学習後も持続する潜在表現を明らかにし、現行の消去手法の限界を強調する。
  • 定性的な結果では、敵対的プロンプトが Nudity、Object、Style の各カテゴリで細かなアイデンティティやスタイルを回復する。
Figure 3 : Qualitative comparison of nudity reconstruction across different methods. See Appendix B for full generation prompts.
Figure 3 : Qualitative comparison of nudity reconstruction across different methods. See Appendix B for full generation prompts.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。