[논문 리뷰] MeGU: Machine-Guided Unlearning with Target Feature Disentanglement
MeGU는 다중 모달 대형 언어 모델과 의미론적 섭동, Fragment-Align 전략으로 타깃 특징을 분리하고 유지된 데이터 성능을 보존하는 기계 가이드 언러닝을 도입한다.
The growing concern over training data privacy has elevated the "Right to be Forgotten" into a critical requirement, thereby raising the demand for effective Machine Unlearning. However, existing unlearning approaches commonly suffer from a fundamental trade-off: aggressively erasing the influence of target data often degrades model utility on retained data, while conservative strategies leave residual target information intact. In this work, the intrinsic representation properties learned during model pretraining are analyzed. It is demonstrated that semantic class concepts are entangled at the feature-pattern level, sharing associated features while preserving concept-specific discriminative components. This entanglement fundamentally limits the effectiveness of existing unlearning paradigms. Motivated by this insight, we propose Machine-Guided Unlearning (MeGU), a novel framework that guides unlearning through concept-aware re-alignment. Specifically, Multi-modal Large Language Models (MLLMs) are leveraged to explicitly determine re-alignment directions for target samples by assigning semantically meaningful perturbing labels. To improve efficiency, inter-class conceptual similarities estimated by the MLLM are encoded into a lightweight transition matrix. Furthermore, MeGU introduces a positive-negative feature noise pair to explicitly disentangle target concept influence. During finetuning, the negative noise suppresses target-specific feature patterns, while the positive noise reinforces remaining associated features and aligns them with perturbing concepts. This coordinated design enables selective disruption of target-specific representations while preserving shared semantic structures. As a result, MeGU enables controlled and selective forgetting, effectively mitigating both under-unlearning and over-unlearning.
연구 동기 및 목표
- 타깃 개념과 유지된 개념 사이의 얽힘으로 인해 기존의 기계 언러닝 접근법의 한계가 제시되는 동기를 제시하고 분석한다.
- MLLM을 사용해 언러닝을 위한 의미론적으로 의미 있는 섭동을 유도하는 프레임워크를 제안한다.
- Positive/Negative 특징 노이즈를 가진 Fragment-Align 전략을 통해 타깃 개념 특징을 분리한다.
- 여러 언러닝 작업과 데이터셋에 걸쳐 약화 실험과 감도 분석을 통해 효과를 입증한다.
제안 방법
- 제로샷(Multi-modal 대형 언어 모델)을 활용해 개념 간 유사성을 추정하고 의미론적 유사성을 포착하는 가벼운 전이 행렬 T를 구성한다.
- 전이 행렬과 모델 예측을 사용해 섭동 후보를 순위화하여 잊기 사례에 대한 섭동 표기를 생성하고, 섭동이 의미론적으로는 타당하지만 원래 레이블과는 구별되도록 한다.
- Fragment-Align을 도입하고, 타깃 입력에 대해 섭동 표기와 원래 타깃 특징을 억제하는 Positive 노이즈 NPos와 Negative 노이즈 NNeg의 한 쌍을 활용해 타깃 특징을 유지된 개념으로부터 분리한다.
- NPos와 NNeg를 결합해 Perturbed Forget 데이터 Df^p를 생성하고, 잊기 방향으로 미세 조정을 유도하면서 유지 데이터 성능을 보존한다.
- Perturbed Forget 데이터와 유지 데이터를 모두 사용해 미세 조정을 수행해 의사결정 경계를 재형성하되 전체 재학습은 필요로 하지 않도록 한다.

실험 결과
연구 질문
- RQ1특징 패턴과 의미론적 개념의 얽힘이 기존 언러닝 방법을 어떻게 제한하는가?
- RQ2MLLM이 의미론적으로 의미 있는 섭동 표기를 제공해 언러닝을 안정적으로 안내할 수 있는가?
- RQ3Fragment-Align 전략이 유지된 데이터의 일반화 능력을 보존하면서 선택적 망각을 가능하게 하는가?
- RQ4다양한 데이터셋과 언러닝 시나리오에서 섭동 표기 기반 언러닝의 영향은 어느 정도인가?
주요 결과
- MeGU는 세 가지 언러닝 작업과 다양한 데이터셋에서 타깃 데이터 제거에 있어 최첨단 기준선보다 일관되게 우수하며 유지된 데이터의 일반화도 강하게 유지한다.
- 전이 행렬 기반의 섭동 표기는 의미론적으로 의미 있고 인스턴스 인지 잊기 방향을 가능하게 한다.
- Positive 및 Negative 특징 노이즈를 가진 Fragment-Align은 타깃 특징을 원래 개념으로부터 분리하고 섭동 개념과의 정렬을 강화한다.
- 제어된 잊기 프로세스는 기존 방법들에 비해 과소 언러닝과 과잉 언러닝 모두를 완화한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.