Skip to main content
QUICK REVIEW

[论文解读] Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning

Naixin Zhai, Pengyang Shao|arXiv (Cornell University)|Jan 6, 2026
Topic Modeling被引用 0
一句话总结

PALU 通过针对敏感前缀和前K logits 来最大化局部熵,从而实现强 forgetting 的同时,在减少计算的前提下尽量保持通用模型能力。

ABSTRACT

Machine unlearning aims to forget sensitive knowledge from Large Language Models (LLMs) while maintaining general utility. However, existing approaches typically treat all tokens in a response indiscriminately and enforce uncertainty over the entire vocabulary. This global treatment results in unnecessary utility degradation and extends optimization to content-agnostic regions. To address these limitations, we propose PALU (Prefix-Aware Localized Unlearning), a framework driven by a local entropy maximization objective across both temporal and vocabulary dimensions. PALU reveals that (i) suppressing the sensitive prefix alone is sufficient to sever the causal generation link, and (ii) flattening only the top-$k$ logits is adequate to maximize uncertainty in the critical subspace. These findings allow PALU to avoid redundant optimization across the full vocabulary and parameter space while minimizing collateral damage to general model performance. Extensive experiments validate that PALU achieves superior forgetting efficacy and utility preservation compared to state-of-the-art baselines.

研究动机与目标

  • 从干预效率的视角重新审视 LLM 无学习。
  • 提出 PALU,一种针对敏感前缀与前-K logits 的双局部无学习框架。
  • 证明局部熵最大化在最小副作用的前提下实现稳健遗忘。
  • 在标准遗忘基线上对比现有方法评估 PALU。
  • 在 Llama 模型上展示更高的效率与效用保留。

提出的方法

  • 识别敏感解码前缀,并将无学习限制在每个敏感区段的前 N 个标记。
  • 将词汇层面的优化限制在冻结参考模型所识别的前-K logits。
  • 通过最小化前-K logits 与固定目标 c 之间的均方误差来最大化局部熵,鼓励前-K 集内的分布更平坦。
  • 将局部熵目标与对非敏感或非起始标记的 KL 保留项结合起来。
  • 给出总损失 L_total,对起始标记应用 L_local,对非敏感标记应用 KL,从而获得稀疏梯度。
  • 并分析计算复杂度为 O(TK) 与对全词汇方法的 O(TV) 的对比。

实验结果

研究问题

  • RQ1选择性、逐标记定位能否在实现有效遗忘的同时降低不必要的扰动?
  • RQ2在前-K logits 的局部熵最大化是否比否定交叉熵更稳定无学习?
  • RQ3限制时间(前缀)与词汇(前-K)的范围对遗忘质量和效用有何影响?
  • RQ4在局部熵目标中选择 flattening 目标 c 的最优策略是什么?
  • RQ5与最先进基线相比,PALU 在标准遗忘基准上的表现如何?

主要发现

MethodModelFQ (↑)MU (↑)Fluency (↑)EM (↓)F-TR (↑)Ra-TR (↑)R-TR (↑)Rw-TR (↑)
OriginalLlama-2-7B-5.87E-140.62760.85570.99880.51130.61200.4596
RetainLlama-2-7B-1.00000.62660.88890.66700.66960.60520.4639
GALlama-2-7B5.95E-110.55800.74230.92150.53040.59190.46080.5426
GDLlama-2-7B0.03960.35770.23340.64290.58390.56510.44970.5958
DPOLlama-2-7B0.54530.55030.69840.61550.68220.51380.44160.5051
NPOLlama-2-7B0.62840.59200.81150.65740.66230.61550.46130.5663
SimNPOLlama-2-7B0.46630.59210.90930.73430.67070.64370.41380.5776
PDULlama-2-7B0.00210.51110.48340.64980.76000.62170.34900.6348
TPOLlama-2-7B0.62840.58620.79290.66210.66180.59070.45150.5967
PALULlama-2-7B0.71260.62380.81220.59350.70300.67010.47620.6069
OriginalLlama-3.1-8B-6.54E-130.62760.85220.99780.47880.49630.5298
RetainLlama-3.1-8B-1.00000.63230.88570.61670.62160.52560.6127
GALlama-3.1-8B8.05E-070.58380.81820.82810.55320.52790.47660.6196
GDLlama-3.1-8B0.27050.55360.80120.71530.62450.53330.46010.6069
DPOLlama-3.1-8B0.46630.55310.87610.63740.63200.52030.47940.5076
NPOLlama-3.1-8B0.57770.51100.56900.51620.64240.62260.46080.5801
SimNPOLlama-3.1-8B0.23930.20200.24690.63620.65140.70070.47260.5886
PDULlama-3.1-8B0.43780.38890.44740.91030.า0.​0.Â0.Â
  • PALU 在 TOFU 与 MUSE 基准上相较强基线实现更优的遗忘效果,同时保留模型效用。
  • 时间上的局部性(前缀)和词汇上的局部性(前-K)把计算从 O(TV) 降低到 O(TK),其中 K << V。
  • 较小的起始标记预算(N)即可;最优 N 约为每个敏感区段的 3 个标记。
  • 较大前-K 规模(约 5,000)在成本显著下降的同时仍实现近全词汇的有效性,验证了词汇稀疏性。
  • 全局均值作为 flattening 目标 c 为擦除深度与流形保持之间提供了稳定的平衡。
  • PALU 展现更快的收敛与更好的隐私相关指标(如 MinK/MinK++),相较基线具有更小的效用损失。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。