Skip to main content
QUICK REVIEW

[論文レビュー] FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Xiaoyu Xu, Minxin Du|arXiv (Cornell University)|Jan 29, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

FITはLLMの継続的な“忘却”学習フレームワークであり、冗長性フィルタリング、重要性認識型更新、ターゲット層アトリビューションを用いて、継続設定における削除要求のメモリ消去を行いつつ有用性を維持する。PCHベンチマークと忘却と有用性の対称指標を導入する。

ABSTRACT

Large language models (LLMs) demonstrate impressive capabilities across diverse tasks but raise concerns about privacy, copyright, and harmful materials. Existing LLM unlearning methods rarely consider the continual and high-volume nature of real-world deletion requests, which can cause utility degradation and catastrophic forgetting as requests accumulate. To address this challenge, we introduce \fit, a framework for continual unlearning that handles large numbers of deletion requests while maintaining robustness against both catastrophic forgetting and post-unlearning recovery. \fit mitigates degradation through rigorous data \underline{F}iltering, \underline{I}mportance-aware updates, and \underline{T}argeted layer attribution, enabling stable performance across long sequences of unlearning operations and achieving a favorable balance between forgetting effectiveness and utility retention. To support realistic evaluation, we present extbf{PCH}, a benchmark covering extbf{P}ersonal information, extbf{C}opyright, and extbf{H}armful content in sequential deletion scenarios, along with two symmetric metrics, Forget Degree (F.D.) and Retain Utility (R.U.), which jointly assess forgetting quality and utility preservation. Extensive experiments on four open-source LLMs with hundreds of deletion requests show that \fit achieves the strongest trade-off between F.D. and R.U., surpasses existing methods on MMLU, CommonsenseQA, and GSM8K, and remains resistant against both relearning and quantization recovery attacks.

研究の動機と目的

  • LLMにおける継続的忘却のニーズを、プライバシー、著作権、有害コンテンツの懸念から動機付ける。
  • 高ボリュームの逐次削除要求に対して壊滅的な忘却を起こさず堅牢なフレームワーク(FIT)を開発する。
  • 統一的な継続的忘却ベンチマーク(PCH)と対称的指標(F.D.とR.U.)を提案し、トレードオフを評価する。
  • FITが複数モデルで従来法を上回り、再学習・量子化攻撃に対して頑健であることを示す。

提案手法

  • 埋め込みベースの冗長性フィルタリングを用いて、機微なトークンを保ちながら意味的に類似した忘却要求を除去する。
  • 軽量なメモリプロキシIMPに基づく適応的アルゴリズム選択で、フィルタリング後の各要求に適切な忘却手法を選択する。
  • 各要求ごとに上位K個の影響力のある層を特定して更新するターゲット層アトリビューションにより、パラメータシフトを抑制する。
  • 忘却要求のチャンクを破棄するかどうかを決定するため、埋め込み類似度と損失差基準の二段階冗長性テストを実施する。
  • PCHベンチマークと二つの対称指標(F.D.とR.U.)を用いて、四つのオープンソースLLMで最大300件の逐次忘却要求を評価。
  • GA、GA+GD、GA+KL、NPO、NPO+KL、RLabel、PISCES、O^3、ALKNとの比較。

実験結果

リサーチクエスチョン

  • RQ1高ボリュームの逐次削除要求の下で、LLMにおける継続的忘却をいかに効率的に実現できるか。
  • RQ2冗長性フィルタリング、適応的手法選択、層へ焦点を当てた更新は、壊滅的忘却と忘却後の回復を抑制できるか。
  • RQ3対称指標を備えた統一的な継続的忘却ベンチマークは、モデル間で忘却と有用性の評価を信頼できるものにするか。
  • RQ4FITの下流タスクでの実世界パフォーマンスと、再学習・量子化攻撃に対する頑健性はどうか。

主な発見

  • FITはモデルと削除ラウンドを通じて、忘却度(F.D.)と保持有用性(R.U.)の間で有利なトレードオフを達成する。
  • 四つのLLMと最大300件の要求で、従来法より忘却と有用性の維持が強化されている。例としてYi-6Bで300件時にALKNおよびO^3に対しておよそ+0.20 F.D.および+0.10 R.U.の改善。
  • FITは継続的な忘却下でGSM8K、MMLU、CommonsenseQAの下流精度をベースラインより高く維持する。
  • FITはファインチューニングによる再学習と量子化攻撃に対して頑健である。
  • 効果的な忘却更新には6〜9層(K ≈ 8)のコンパクトなセットで十分で、頑健性と効率のバランスが取れる。
  • PCHは個人情報、著作権、及び有害コンテンツをカバーする合成的で分布外のベンチマークを提供し、継続的忘却評価に用いられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。