[论文解读] Toward Ultra-Long-Horizon Sequential Model Editing
论文提出 Norm-Anchor Scaling(NAS),一种对范数进行约束的、可插入的稳定化方法,用于 LLM 的 Locate-and-Edit 编辑,显著延缓崩溃并提升长时序编辑性能。
Model editing has emerged as a practical approach for mitigating factual errors and outdated knowledge in large language models (LLMs). Among existing methods, the Locate-and-Edit (L&E) paradigm is the dominant framework: it locates MLP parameters implicated in expressing a target fact, and then performs a localized update to rewrite that fact. However, long sequences of edits often trigger abrupt model collapse in L&E beyond a critical point. We empirically identify a strong correlation between collapse and explosive growth of edited MLP weight norms, and formally prove that commonly used L&E update rules can induce exponential norm growth across sequential edits in the absence of explicit norm control. To address this issue, we propose Norm-Anchor Scaling NAS, a plug-and-play norm-constrained strategy. Across extensive experiments, NAS delays the collapse point of representative L&E algorithms by more than 4 times and yields a 72.2% average relative gain in editing performance, requiring only a single additional line of code and incurring negligible computational overhead.
研究动机与目标
- 在不进行全面再训练或引入具破坏性的全局改变的前提下,激励对 LLM 的终身知识更新。
- 识别连续进行 L&E 编辑过程中的范数增长现象及其对稳定性与性能的影响。
- 提出可即插即用的稳定化技术,在保持更新方向的同时约束权重范数。
- 提供理论与实证证据,表明 NAS 能限制权重范数增长并在多次编辑后保持编辑质量。
提出的方法
- 将 Transformer 中的前馈网络(FFN)建模为一个键–值记忆,并对每次编辑施加局部写入更新(秩-一更新)。
- 证明若缺乏范数控制,编辑后的权重 W 的范数会随编辑次数指数级增长。
- 引入 Norm-Anchor Scaling(NAS):将每次编辑的写向量重新缩放到一个来自未编辑基础模型的稳定锚点幅度,从而保持更新方向不变。
- 给出在 NAS 下编辑后权重范数的理论上界。
- 表明 NAS 只需一行代码即可实现,计算开销可以忽略不计且与现有 L&E 方法可即插即用。
- 在超长编辑流(CounterFact 和 ZsRE)上对 LLaMA3 和 GPT-J 进行实证评估,并与纯 L&E 与基线方法进行比较。

实验结果
研究问题
- RQ1序列编辑通过 Locate-and-Edit 是否会导致目标层权重范数的无界增长,进而导致模型崩溃?
- RQ2范数受限写入(NAS)是否能防止爆炸性范数增长并在不牺牲编辑质量的前提下延长可编辑的 horizon?
- RQ3NAS 如何影响隐藏表示漂移以及在长编辑流中的整体编辑性能?
主要发现
- 在标准的 L&E 更新下,编辑后的权重范数呈指数级增长,与编辑性能下降相关。
- NAS 能约束被编辑层的范数漂移,使其保持在编辑前的近似值附近,减少表示漂移。
- NAS 显著延缓性能下降点,平均延长超过 4×,并将平均编辑成功率从 51.9 提升到 89.3(相对提升 +72.2%)。
- 在对长编辑流进行评估的方法中,NAS 是唯一在超长时域编辑中未出现明显退化的方法。
- NAS 仅需额外一行代码,且计算开销极低。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。