Skip to main content
QUICK REVIEW

[論文レビュー] Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

Chi Andrew Zhang, Mengqi Zhang|arXiv (Cornell University)|Jan 16, 2026
Topic Modeling被引用数 0
ひとこと要約

この論文は、重み行列のスペクトル特性を通じて逐次的な知識編集がモデルの一般能力を崩壊させる理由を分析し、更新中に支配的スペクトル部分空間を保存して長距離編集性能を向上させるプラグアンドプレイ手法 REVIVE を導入する。

ABSTRACT

Sequential knowledge editing in large language models often causes catastrophic collapse of the model's general abilities, especially for parameter-modifying methods. Existing approaches mitigate this issue through heuristic constraints on parameter updates, yet the mechanisms underlying such degradation remain insufficiently understood. In this work, we present a spectral analysis of sequential knowledge editing and show that a model's general abilities are closely associated with dominant singular directions of pretrained weight matrices. These directions are highly sensitive to perturbations and are progressively disrupted by repeated edits, closely tracking the collapse in both editing efficacy and general performance. Building on this insight, we propose REVIVE, a plug-and-play framework that stabilizes sequential editing by explicitly preserving the dominant singular subspace. REVIVE represents parameter updates in the spectral basis of the original weights and filters components that would interfere with the protected region. Extensive experiments across multiple models and benchmarks show that REVIVE consistently improves editing efficacy while substantially preserving general abilities under long-horizon sequential editing, including extreme settings with up to 20,000 edits.

研究の動機と目的

  • 事前学習済み重み行列のスペクトル特性を通じて、逐次編集がモデルの一般能力に与える影響を特定する。
  • 支配的特異方向が一般能力にとって重要であり、摂動に対して脆弱であることを示す。
  • 編集中に支配的スペクトル構造を保存するプラグアンドプレー型フレームワーク(REVIVE)を開発する。
  • 複数モデルと長距離編集ベンチマークで REVIVE を評価し、編集効果の改善と一般能力の保持を示す。

提案手法

  • 元の重み行列の特異ベクトル基底でパラメータ更新を表現し、編集をスペクトル成分に分解する(Eq. 4)。
  • エネルギー閾値 τ を用いて支配的特異部分空間を同定し、この領域と干渉する成分を除去する安全な更新を構築する(Eq. 5 および Eq. 6)。
  • REVIVE をプラグアンドプレーのラッパーとして適用し、低エネルギー方向での編集を許容しつつ支配的部分空間を保持する。
  • 逐次編集中の支配的部分空間のドリフトを監視するために、スペクトル指標(Low-rank Subspace Similarity および Singular Vector Similarity)を用いる。
  • COUNTERFACT および ZSRE ベンチマークを用いて LLaMA3、GPT-J、および GPT-2-XL で評価し、MEMIT、PRUNE、RECT、ALPHAEDIT、DELTAEDIT、NSE と比較する。

実験結果

リサーチクエスチョン

  • RQ1事前学習済み重み行列における一般能力に最も関与するスペクトル構造は何か。
  • RQ2逐次編集はこれらのスペクトル構造をどのように摂動させ、性能崩壊とどう関連するか。
  • RQ3編集中に支配的特異部分空間を保持することで、長距離の逐次編集を安定化しつつ編集効果を損なわないか。

主な発見

  • 一般能力は特異成分の上位5%に高く集中しており、それらの成分だけで約62.6%の性能を回復する。
  • 支配的スペクトル方向は摂動に対して非常に敏感で、摂動すると急速に劣化し、性能崩壊と結びつく。
  • 逐次編集は支配的特異部分空間を徐々に歪め、LS および SS の指標がマクロなドリフトとミクロな回転を示す。
  • REVIVE はモデルとベンチマーク全体で編集効果を一貫して改善し、長い編集列(最大20,000 編集)における GLUE の一般能力を大幅に保持する。
  • REVIVE は長い編集列での異常なウェイトノルムの増加を抑制し、安定性の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。