Skip to main content
QUICK REVIEW

[論文レビュー] MeGU: Machine-Guided Unlearning with Target Feature Disentanglement

Haoyu Wang, Zhuo Huang|arXiv (Cornell University)|Feb 19, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

MeGUは、マルチモーダル大規模言語モデルに導かれた意味表現の摂動とFragment-Align戦略を用いて、ターゲット特徴を分離し保持データの性能を維持しつつ機械的忘却を実現する。

ABSTRACT

The growing concern over training data privacy has elevated the "Right to be Forgotten" into a critical requirement, thereby raising the demand for effective Machine Unlearning. However, existing unlearning approaches commonly suffer from a fundamental trade-off: aggressively erasing the influence of target data often degrades model utility on retained data, while conservative strategies leave residual target information intact. In this work, the intrinsic representation properties learned during model pretraining are analyzed. It is demonstrated that semantic class concepts are entangled at the feature-pattern level, sharing associated features while preserving concept-specific discriminative components. This entanglement fundamentally limits the effectiveness of existing unlearning paradigms. Motivated by this insight, we propose Machine-Guided Unlearning (MeGU), a novel framework that guides unlearning through concept-aware re-alignment. Specifically, Multi-modal Large Language Models (MLLMs) are leveraged to explicitly determine re-alignment directions for target samples by assigning semantically meaningful perturbing labels. To improve efficiency, inter-class conceptual similarities estimated by the MLLM are encoded into a lightweight transition matrix. Furthermore, MeGU introduces a positive-negative feature noise pair to explicitly disentangle target concept influence. During finetuning, the negative noise suppresses target-specific feature patterns, while the positive noise reinforces remaining associated features and aligns them with perturbing concepts. This coordinated design enables selective disruption of target-specific representations while preserving shared semantic structures. As a result, MeGU enables controlled and selective forgetting, effectively mitigating both under-unlearning and over-unlearning.

研究の動機と目的

  • ターゲット概念と保持概念のentanglementのために、既存の機械忘却アプローチの限界を動機づけかつ分析する。
  • MLLMsを用いて忘却のための意味的に有意な摂動を誘発する枠組みを提案する。
  • Fragment-Align戦略により、正の特徴ノイズと負の特徴ノイズを用いてターゲット概念特徴を解離させ、保持データの性能を保持する。
  • 複数の忘却タスクとデータセットに対して、アブレーションと感度分析を用いて有効性を実証する。

提案手法

  • ゼロショットのマルチモーダル大規模言語モデル(MLLM)を活用して概念間の類似度を推定し、意味的な類似性を捉える軽量な遷移行列Tを構築する。
  • 遷移行列とモデル予測を用いて摂動候補をランキングし、忘却対象のラベルを意味的に有意かつ元のラベルと区別可能な形で摂動ラベルとして生成する。
  • Fragment-Alignを導入し、正のノイズNPosと負のノイズNNegのペアを用いて、摂動ラベルと一致する正のノイズと元のターゲット特徴を抑制する負のノイズを組み合わせ、ターゲット特徴を保持概念から解離させる。
  • ターゲット入力とNPos/NNegを組み合わせた摂動忘却データDf^pを作成し、微調整を摂動概念へ誘導しつつ保持データの性能を維持する。
  • 摂動忘却データと保持データ上で微調整を行い、完全再訓練を伴わずに意思決定境界を再構築する。
Figure 1: The entanglement among features from different concepts. Taking dinosaur and wolf as an example. They share similar features (marked as red ) while each possesses unique features ( green ). Assume that dinosaur is the class to be forgotten. The goal of our method is to disentangle its feat
Figure 1: The entanglement among features from different concepts. Taking dinosaur and wolf as an example. They share similar features (marked as red ) while each possesses unique features ( green ). Assume that dinosaur is the class to be forgotten. The goal of our method is to disentangle its feat

実験結果

リサーチクエスチョン

  • RQ1特徴パターンと意味概念の entanglement は既存の忘却法をどのように制限するか。
  • RQ2MLLMsは忘却を導く意味的に有意な摂動ラベルを信頼できる形で提供できるか。
  • RQ3Fragment-Align戦略は保持データの一般化を維持しつつ選択的忘却を可能にするか。
  • RQ4摂動ラベルに基づく忘却を異なるデータセット・忘却シナリオでどのような影響を及ぼすか。

主な発見

  • MeGUは3つの忘却タスクと多様なデータセットにおいて、保持データの一般化を維持しつつターゲットデータの除去で最先端ベースラインを一貫して上回る。
  • 遷移行列に導かれた摂動ラベルは意味的に有意でインスタンス依存の忘却方向を可能にする。
  • 正のノイズと負のノイズを用いたFragment-Alignは、ターゲット特徴を元の概念から解離させ、摂動概念との整合性を強化する。
  • 制御された忘却プロセスは、他法と比較して忘却不足と過忘却の両方を緩和する。
Figure 2: The proposed unlearning framework MeGU. The MLLM is employed to acquire the conceptual similarities with a small subset of the training data. Incorporated with model prediction, the perturbing labels are determined. The Fragment-Align strategy leverages a pair of feature noises trained fro
Figure 2: The proposed unlearning framework MeGU. The MLLM is employed to acquire the conceptual similarities with a small subset of the training data. Incorporated with model prediction, the perturbing labels are determined. The Fragment-Align strategy leverages a pair of feature noises trained fro

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。