Skip to main content
QUICK REVIEW

[論文レビュー] Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning

Naixin Zhai, Pengyang Shao|arXiv (Cornell University)|Jan 6, 2026
Topic Modeling被引用数 0
ひとこと要約

PALUはプレフィックス意識の局所的忘却を導入し、敏感なプレフィックスとトップ-K ロジットのみを標的化して局所エントロピーを最大化することで、計算量を削減しつつ強力な忘却と一般的モデル有用性の維持を実現します。

ABSTRACT

Machine unlearning aims to forget sensitive knowledge from Large Language Models (LLMs) while maintaining general utility. However, existing approaches typically treat all tokens in a response indiscriminately and enforce uncertainty over the entire vocabulary. This global treatment results in unnecessary utility degradation and extends optimization to content-agnostic regions. To address these limitations, we propose PALU (Prefix-Aware Localized Unlearning), a framework driven by a local entropy maximization objective across both temporal and vocabulary dimensions. PALU reveals that (i) suppressing the sensitive prefix alone is sufficient to sever the causal generation link, and (ii) flattening only the top-$k$ logits is adequate to maximize uncertainty in the critical subspace. These findings allow PALU to avoid redundant optimization across the full vocabulary and parameter space while minimizing collateral damage to general model performance. Extensive experiments validate that PALU achieves superior forgetting efficacy and utility preservation compared to state-of-the-art baselines.

研究の動機と目的

  • 介入効率の視点からLLMの忘却を再検討する。
  • 敏感なプレフィックスとトップ-K ロジットを標的化するデュアルローカリティ忘却フレームワークPALUを提案する。
  • 局所的エントロピー最大化が、過剰な副作用をほとんど生じさせずに堅牢な忘却をもたらすことを示す。
  • 標準的な忘却ベンチマークで最先端のベースラインと比較してPALUを評価する。
  • Llamaシリーズモデル全般で効率性と有用性の向上を実証する。

提案手法

  • 各敏感デコードプレフィックスを同定し、忘却を各敏感スパンの最初のNトークンに制限する。
  • frozenな参照モデルによって識別されたトップ-K ロジットに対して語彙レベルの最適化を制限する。
  • トップ-K ロジットと固定ターゲットcとの間のMSEを最小化して局所エントロピーを最大化し、トップ-K集合内で分布を平坦化する。
  • 感受性が高いまたは開始トークンでないトークンに対してKLベースの保存項を組み合わせ、局所エントロピー目的を補完する。
  • initiatingトークンにはL_localを適用し、非敏感トークンにはKLを適用する総合損失L_totalを提供し、スパースな勾配を得る。
  • 計算複雑性を全語彙アプローチのO(TV)と比較してO(TK)と分析する。

実験結果

リサーチクエスチョン

  • RQ1選択的かつトークンレベルの標的化は、不必要な摂動を減らしつつ効果的な忘却を達成できるか。
  • RQ2局所エントロピー最大化は、 negated cross-entropyと比較して忘却を安定化させるか。
  • RQ3時間的(プレフィックス)および語彙的(トップ-K)範囲を制限することは、忘却の質と有用性にどのように影響するか。
  • RQ4局所エントロピー目的のflatteningターゲットcを選ぶ最適戦略は何か。
  • RQ5PALUは標準的な forgetting ベースラインと比較してどの程度優れているか。

主な発見

MethodModelFQ (↑)MU (↑)Fluency (↑)EM (↓)F-TR (↑)Ra-TR (↑)R-TR (↑)Rw-TR (↑)
OriginalLlama-2-7B-5.87E-140.62760.85570.99880.51130.61200.4596
RetainLlama-2-7B-1.00000.62660.88890.66700.66960.60520.4639
GALlama-2-7B5.95E-110.55800.74230.92150.53040.59190.46080.5426
GDLlama-2-7B0.03960.35770.23340.64290.58390.56510.44970.5958
DPOLlama-2-7B0.54530.55030.69840.61550.68220.51380.44160.5051
NPOLlama-2-7B0.62840.59200.81150.65740.66230.61550.46130.5663
SimNPOLlama-2-7B0.46630.59210.90930.73430.67070.64370.41380.5776
PDULlama-2-7B0.00210.51110.48340.64980.76000.62170.34900.6348
TPOLlama-2-7B0.62840.58620.79290.66210.66180.59070.45150.5967
PALULlama-2-7B0.71260.62380.81220.59350.70300.67010.47620.6069
OriginalLlama-3.1-8B-6.54E-130.62760.85220.99780.47880.49630.5298
RetainLlama-3.1-8B-1.00000.63230.88570.61670.62160.52560.6127
GALlama-3.1-8B8.05E-070.58380.81820.82810.55320.52790.47660.6196
GDLlama-3.1-8B0.27050.55360.80120.71530.62450.53330.46010.6069
DPOLlama-3.1-8B0.46630.55310.87610.63740.63200.52030.47940.5076
NPOLlama-3.1-8B0.57770.51100.56900.51620.64240.62260.46080.5801
SimNPOLlama-3.1-8B0.23930.20200.24690.63620.65140.70070.47260.5886
PDULlama-3.1-8B0.43780.38890.44740.91030.า0.​0.​0.​
  • PALUはTOFUおよびMUSEベンチマークで、強力なベースラインと比較してモデル有用性を保ちながら忘却効果を上回る。
  • 時間的(プレフィックス)と語彙的(トップ-K)の局所性により、計算量はO(TV)からO(TK)へ削減され、K<<Vとなる。
  • 小さな開始トークン予算(N)で十分であり、最適なNは各敏感スパンあたり約3トークン。
  • トップ-Kスケール(約5,000程度)で、語彙全体に近い効果を得つつコストを大幅に抑えられることが確認され、語彙のスパース性を検証。
  • Global meanをflatteningターゲットcとすることで、消去の深さと多様体保存の安定したバランスを提供。
  • PALUは収束が速く、プライバシー関連指標(例:MinK/MinK++)でベースラインより優れ、ユーティリティ損失を抑制する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。