[論文レビュー] Toward Ultra-Long-Horizon Sequential Model Editing
論文は Norm-Anchor Scaling (NAS) を導入します。これは Locate-and-Edit 編集に対するノルム制約付きプラグイン安定化手法で、崩壊を大幅に遅らせ、長期的な編集性能を向上させます。
Model editing has emerged as a practical approach for mitigating factual errors and outdated knowledge in large language models (LLMs). Among existing methods, the Locate-and-Edit (L&E) paradigm is the dominant framework: it locates MLP parameters implicated in expressing a target fact, and then performs a localized update to rewrite that fact. However, long sequences of edits often trigger abrupt model collapse in L&E beyond a critical point. We empirically identify a strong correlation between collapse and explosive growth of edited MLP weight norms, and formally prove that commonly used L&E update rules can induce exponential norm growth across sequential edits in the absence of explicit norm control. To address this issue, we propose Norm-Anchor Scaling NAS, a plug-and-play norm-constrained strategy. Across extensive experiments, NAS delays the collapse point of representative L&E algorithms by more than 4 times and yields a 72.2% average relative gain in editing performance, requiring only a single additional line of code and incurring negligible computational overhead.
研究の動機と目的
- LLMs に対して全面的な再訓練や大規模なグローバル変更を伴わずに生涯知識の更新を促進する。
- 逐次 L&E 編集中にノルム成長現象と、それが安定性と性能に与える影響を特定する。
- 更新方向を保持しつつ重みノルムを制約するプレインプラグイン安定化手法を提案する。
- NAS が重みノルムの成長を境界づけ、複数の編集を経ても編集品質を維持するという理論的・実証的証拠を提供する。
提案手法
- Transformer の FFN をキー–値メモリとして位置的書き込み更新(ランク1更新)を各編集ごとに行う。
- ノルム制御なしでは、編集された重み W のノルムが編集数とともに指数関数的に増大することを示す。
- Norm-Anchor Scaling (NAS) を導入する:各編集の書き込みベクトルを、未編集ベースモデルから派生する安定したアンカー量にスケール変更し、更新方向を保持する。
- NAS の下で編集後の重みノルムの理論的上限を提供する。
- NAS は一行の追加コードで実現可能で計算オーバーヘッドがほとんどなく、既存の L&E 手法へのプラグアンドプレイである。
- 超長期の編集ストリーム(CounterFact および ZsRE)に対して、LLaMA3 および GPT-J で NAS を経験的に評価し、バニラ L&E およびベースラインと比較する。)

実験結果
リサーチクエスチョン
- RQ1逐次編集を Locate-and-Edit で行うと、ターゲット層の重みノルムが限界なく増大し、モデル崩壊を招くか。
- RQ2ノルム制約付きの書き込み(NAS)は、爆発的なノルム成長を防ぎ、編集品質を損なうことなく編集可能性の地平を延長できるか。
- RQ3NAS は長大な編集ストリームにわたる潜在表現のドリフトと全体的な編集性能にどのような影響を与えるか。
主な発見
- 標準の L&E 更新の下では、編集重みのノルムが指数関数的に成長し、編集性能の低下と相関する。
- NAS は編集層のノルムドリフトを抑制し、編集前の値付近に保ち、表現ドリフトを低減する。
- NAS は劣化点を平均で 4 倍以上遅延させ、平均編集成功率を 51.9 から 89.3 に改善(相対 +72.2%)。
- 長大な編集ストリームの評価手法の中で、NAS は超長期的なホライゾン編集における明確な劣化なしで唯一のアプローチである。
- NAS は追加のコード行が 1 行で済み、計算オーバーヘッドはごくわずかである。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。