QUICK REVIEW

[논문 리뷰] Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning

Naixin Zhai, Pengyang Shao|arXiv (Cornell University)|2026. 01. 06.

Topic Modeling인용 수 0

한 줄 요약

PALU는 민감 접두사와 상위-K 로짓에만 초점을 맞춰 로컬 엔트로피를 최대화하고, 강한 망각을 달성하는 동시에 일반적 모델 유용성을 보존하며 계산량을 감소시킨 프리픽스-인식 로컬 언러닝을 도입한다.

ABSTRACT

Machine unlearning aims to forget sensitive knowledge from Large Language Models (LLMs) while maintaining general utility. However, existing approaches typically treat all tokens in a response indiscriminately and enforce uncertainty over the entire vocabulary. This global treatment results in unnecessary utility degradation and extends optimization to content-agnostic regions. To address these limitations, we propose PALU (Prefix-Aware Localized Unlearning), a framework driven by a local entropy maximization objective across both temporal and vocabulary dimensions. PALU reveals that (i) suppressing the sensitive prefix alone is sufficient to sever the causal generation link, and (ii) flattening only the top-$k$ logits is adequate to maximize uncertainty in the critical subspace. These findings allow PALU to avoid redundant optimization across the full vocabulary and parameter space while minimizing collateral damage to general model performance. Extensive experiments validate that PALU achieves superior forgetting efficacy and utility preservation compared to state-of-the-art baselines.

연구 동기 및 목표

개입 효율성의 시각에서 LLM 언러닝을 재고한다.
민감한 접두사와 상위-K 로짓을 대상으로 하는 듀얼 로컬리티 기반 언러닝 프레임워크 PALU를 제안한다.
지역적 엔트로피 최대화가 최소한의 부수 피해로 강건한 망각을 달성함을 보인다.
표준 언러닝 벤치마크에서 PALU를 최신 기준선과 비교 평가한다.
Llama 계열 모델에서 효율성과 유용성 보존의 향상을 입증한다.

제안 방법

민감한 디코딩 접두사를 식별하고 각 민감 구간의 처음 N 토큰으로만 언러닝을 제한한다.
고정된 기준 모델이 식별한 상위-K 로짓에만 어휘 수준 최적화를 제한한다.
상위-K 로짓과 고정 대상 c 사이의 MSE를 최소화하여 지역 엔트로피를 최대화하고, 상위-K 집합 내의 분포를 평활하게 만든다.
비민감 토큰 또는 비개시 토큰에 대해 KL 기반 보존 항을 지역 엔트로피 목표와 결합한다.
초기 토큰에 L_local을 적용하고 비민감 토큰에 KL을 적용하는 총 손실 L_total을 제공하여 희소한 그래디언트를 얻는다.
전 전체 어휘 방식과 비교하여 계산 복잡도를 O(TK)로 분석한다.

실험 결과

연구 질문

RQ1선택적 토큰 수준 타깃이 불필요한 교란을 줄이면서도 효과적인 망각을 달성할 수 있는가?
RQ2상위-K 로짓 내의 지역 엔트로피 최대화가 부정된 교차 엔트로피와 비교해 언러닝의 안정화를 가져오는가?
RQ3시간적(프리픽스) 및 어휘적(상위-K) 범위를 함께 제한하는 것이 망각 품질과 유용성에 어떤 영향을 미치는가?
RQ4지역 엔트로피 목적어의 평탄화 대상 c를 선택하는 최적 전략은 무엇인가?
RQ5표준 잊음 벤치마크에서 PALU의 성능은 최첨단 기준선에 비해 어떤가?

주요 결과

방법	모델	FQ (↑)	MU (↑)	유창성 (↑)	EM (↓)	F-TR (↑)	Ra-TR (↑)	R-TR (↑)	Rw-TR (↑)
Original	Llama-2-7B	-	5.87E-14	0.6276	0.8557	0.9988	0.5113	0.6120	0.4596
Retain	Llama-2-7B	-	1.0000	0.6266	0.8889	0.6670	0.6696	0.6052	0.4639
GA	Llama-2-7B	5.95E-11	0.5580	0.7423	0.9215	0.5304	0.5919	0.4608	0.5426
GD	Llama-2-7B	0.0396	0.3577	0.2334	0.6429	0.5839	0.5651	0.4497	0.5958
DPO	Llama-2-7B	0.5453	0.5503	0.6984	0.6155	0.6822	0.5138	0.4416	0.5051
NPO	Llama-2-7B	0.6284	0.5920	0.8115	0.6574	0.6623	0.6155	0.4613	0.5663
SimNPO	Llama-2-7B	0.4663	0.5921	0.9093	0.7343	0.6707	0.6437	0.4138	0.5776
PDU	Llama-2-7B	0.0021	0.5111	0.4834	0.6498	0.7600	0.6217	0.3490	0.6348
TPO	Llama-2-7B	0.6284	0.5862	0.7929	0.6621	0.6618	0.5907	0.4515	0.5967
PALU	Llama-2-7B	0.7126	0.6238	0.8122	0.5935	0.7030	0.6701	0.4762	0.6069
Original	Llama-3.1-8B	-	6.54E-13	0.6276	0.8522	0.9978	0.4788	0.4963	0.5298
Retain	Llama-3.1-8B	-	1.0000	0.6323	0.8857	0.6167	0.6216	0.5256	0.6127
GA	Llama-3.1-8B	8.05E-07	0.5838	0.8182	0.8281	0.5532	0.5279	0.4766	0.6196
GD	Llama-3.1-8B	0.2705	0.5536	0.8012	0.7153	0.6245	0.5333	0.4601	0.6069
DPO	Llama-3.1-8B	0.4663	0.5531	0.8761	0.6374	0.6320	0.5203	0.4794	0.5076
NPO	Llama-3.1-8B	0.5777	0.5110	0.5690	0.5162	0.6424	0.6226	0.4608	0.5801
SimNPO	Llama-3.1-8B	0.2393	0.2020	0.2469	0.6362	0.6514	0.7007	0.4726	0.5886
PDU	Llama-3.1-8B	0.4378	0.3889	0.4474	0.9103	0.า	0.	0.	0.

PALU는 TOFU 및 MUSE 벤치마크에서 강력한 기준선에 비해 모델 유용성을 보존하면서 우수한 망각 효과를 달성한다.
시간적(framework) 프리픽스와 어휘(top-K)에서의 지역성은 계산을 O(TV)에서 O(TK)로 감소시켜 K << V.
시작 토큰 예산(N)이 작아도 충분하며, 최적의 N은 민감한 구간당 약 3 토큰이다.
Top-K 규모(약 5,000)로 거의 전체 어휘 효과를 낳으며 비용은 훨씬 낮아 어휘 희소성 검증.
평탄화 대상 c로서의 글로벌 평균은 소거 깊이와 다양성 보존 사이의 안정적 균형을 제공한다.
PALU는 수렴 속도가 더 빠르고 프라이버시 관련 지표(MinK/MinK++ )가 더 우수하며 기준선 대비 유용성 손실이 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.