Skip to main content
QUICK REVIEW

[論文レビュー] Is Gradient Ascent Really Necessary? Memorize to Forget for Machine Unlearning

Zhuo Huang, Qizhou Wang|arXiv (Cornell University)|Feb 6, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

この論文は、 undesired data を記憶し、参照モデルへ外挿して Forget する MOX という勾配降下法のみの機械的忘却フレームワークを提案し、勾配上昇を回避して安定性と有用性を向上させる。

ABSTRACT

For ethical and safe AI, machine unlearning rises as a critical topic aiming to protect sensitive, private, and copyrighted knowledge from misuse. To achieve this goal, it is common to conduct gradient ascent (GA) to reverse the training on undesired data. However, such a reversal is prone to catastrophic collapse, which leads to serious performance degradation in general tasks. As a solution, we propose model extrapolation as an alternative to GA, which reaches the counterpart direction in the hypothesis space from one model given another reference model. Therefore, we leverage the original model as the reference, further train it to memorize undesired data while keeping prediction consistency on the rest retained data, to obtain a memorization model. Counterfactual as it might sound, a forget model can be obtained via extrapolation from the memorization model to the reference model. Hence, we avoid directly acquiring the forget model using GA, but proceed with gradient descent for the memorization model, which successfully stabilizes the machine unlearning process. Our model extrapolation is simple and efficient to implement, and it can also effectively converge throughout training to achieve improved unlearning performance.

研究の動機と目的

  • 大規模モデルにおける機械忘却を通じたプライバシー・安全性・著作権の懸念を動機づけ・対処する。
  • 忘却時に勾配上昇が不安定性を引き起こし有用性を低下させ得ることを示す。
  • memorization(記憶化)ベースの学習(memorize)とモデル外挿(extrapolate)を組み合わせて忘却を達成する。
  • 保持データの性能を維持しつつ、望ましくない情報を効果的に忘却する。

提案手法

  • 忘却集合における memorization ロスと、ユーティリティを保持するための KL ダイバージェンス一貫性項を定義する。
  • MOdel eXtrapolation(MOX)を導入する:まず勾配降下法で memorization を最適化して memorization モデルを得た後、theta_for = (1+α) theta_ref − α theta_mem を用いて forget モデルへ外挿する。
  • 安定した最適化を保証し崩壊を防ぐための不可逆的勾配回避を課す。
  • 追加の忘却項を用いてターゲット忘却へ MOX を拡張する。
  • オンライン・動的適用を許容し、モメンタム外挿で汎化を強化する。
Figure 1: (a) Effect of gradient ascent and gradient descent on model utility under various reweighting levels. (b) Effect of gradient ascent and gradient descent on divergence between training and reference models under various reweighting levels. (c) Comparison of forget quality between the forget
Figure 1: (a) Effect of gradient ascent and gradient descent on model utility under various reweighting levels. (b) Effect of gradient ascent and gradient descent on divergence between training and reference models under various reweighting levels. (c) Comparison of forget quality between the forget

実験結果

リサーチクエスチョン

  • RQ1勾配上昇を使わず、 memorization とその後の外挿に焦点を当てて Forgetting を達成できるか。
  • RQ2memorization モデルから参照モデルへの外挿は、保持された知識を保ちつつ望ましくない知識を低下させる Forget モデルを信頼性高く生み出すか。
  • RQ3ハイパーパラメータ α(外挿強度)と η(モメンタム)が、データセット間で忘却の品質と有用性にどのように影響するか。
  • RQ4MOX はさまざまなベンチマークや基盤 LLM に対して頑健で効率的かつターゲット忘却を扱えるか。

主な発見

  • MOX は勾配上昇を回避し、 memorization に勾配降下法を用いることで機械的忘却を安定化する。
  • memorization モデルから参照モデルへ外挿することで、望ましくない知識を効果的に除去する Forget モデルを得る。
  • MOX は多くの設定で保持データ上のモデル有用性を維持し、ベンチマーク全体で強い忘却性能を示す。
  • モメンタム外挿は訓練中の歴史的重みをアンサンブルすることで忘却をさらに改善する。
  • 適切に選択された α は限られた有用性損失で忘却品質を制御し、MOX は忘却集合サイズの変動下でも安定する。
  • MOX は TOFU および MUSE ベンチマークでいくつかの強力なベースラインと競合するか、あるいはそれを上回る性能を示す。
Figure 2: Illustration of MOX. Color intensity indicates dataset fit, colored arrows denote learning directions, and black arrows indicate model extrapolation. Directly deriving the forget model $\theta_{for}$ from the reference model $\theta_{ref}$ via gradient ascent is infeasible, as it reverses
Figure 2: Illustration of MOX. Color intensity indicates dataset fit, colored arrows denote learning directions, and black arrows indicate model extrapolation. Directly deriving the forget model $\theta_{for}$ from the reference model $\theta_{ref}$ via gradient ascent is infeasible, as it reverses

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。