[논문 리뷰] Toward Ultra-Long-Horizon Sequential Model Editing
논문은 Norm-Anchor Scaling (NAS)을 도입하여 Locate-and-Edit 편집에 대한 노름-제약 플러그인 안정화 방법으로 붕괴를 크게 지연시키고 장기 편집 성능을 향상시킨다.
Model editing has emerged as a practical approach for mitigating factual errors and outdated knowledge in large language models (LLMs). Among existing methods, the Locate-and-Edit (L&E) paradigm is the dominant framework: it locates MLP parameters implicated in expressing a target fact, and then performs a localized update to rewrite that fact. However, long sequences of edits often trigger abrupt model collapse in L&E beyond a critical point. We empirically identify a strong correlation between collapse and explosive growth of edited MLP weight norms, and formally prove that commonly used L&E update rules can induce exponential norm growth across sequential edits in the absence of explicit norm control. To address this issue, we propose Norm-Anchor Scaling NAS, a plug-and-play norm-constrained strategy. Across extensive experiments, NAS delays the collapse point of representative L&E algorithms by more than 4 times and yields a 72.2% average relative gain in editing performance, requiring only a single additional line of code and incurring negligible computational overhead.
연구 동기 및 목표
- 전체 재훈련이나 파괴적 글로벌 변화 없이 LLM에서 평생 지식 업데이트를 촉진한다.
- 일련의 L&E 편집에서 노름 증가 현상을 식별하고 그것이 안정성 및 성능에 미치는 영향을 파악한다.
- 업데이트 방향을 보존하면서 가중치 노름을 제약하는 플러그-앤-플레이 안정화 기법을 제안한다.
- NAS가 가중치 노름 증가를 제한하고 다수의 편집에 걸쳐 편집 품질을 지속시킨다는 이론적 및 실험적 근거를 제공한다.
제안 방법
- 트랜스포머의 FFN을 각 편집에 대해 국지화된 쓰기 업데이트(랭크-원 업데이트)로 키–값 메모리로 모델링한다.
- 노름 제어가 없으면 편집된 가중치 W의 노름이 편집 횟수에 따라 지수적으로 증가함을 보여준다.
- Norm-Anchor Scaling (NAS): 각 편집 쓰기 벡터를 미편집 기본 모델에서 도출된 안정적 앵커 크기로 재스케일링하여 업데이트 방향을 보존한다.
- NAS 하에서 편집된 가중치 노름의 이론적 상한을 제시한다.
- NAS가 한 줄의 추가 코드로도 가능하고 계산 오버헤드가 무시할 정도이며 기존 L&E 방법에 플러그-앤-플레이임을 보인다.
- 초장기 편집 스트림(CounterFact 및 ZsRE)에서 LLaMA3와 GPT-J에 걸쳐 NAS를 경험적으로 평가하고, 일반 L&E 및 베이스라인과 비교한다.

실험 결과
연구 질문
- RQ1Locate-and-Edit를 통한 순차 편집이 목표 계층의 가중치 노름의 무한 증가를 초래하여 모델 붕괴로 이어지는가?
- RQ2노름 제약 쓰기(NAS)가 폭발적인 노름 증가를 방지하고 편집 품질을 저하시키지 않으면서 편집 가능 수평선을 연장할 수 있는가?
- RQ3NAS가 장기 편집 스트림에서 숨겨진 표현 드리프트 및 전반적인 편집 성능에 어떤 영향을 미치는가?
주요 결과
- 표준 L&E 업데이트 하에서 편집된 가중치 노름이 지수적으로 증가하여 편집 성능 저하와 상관관계가 있다.
- NAS는 편집된 계층의 노름 드리프트를 제약하여 편집 전 값에 가깝게 유지하고 표현 드리프트를 감소시킨다.
- NAS는 평균적으로 악화 시점을 4배 이상 늦추고 평균 편집 성공률을 51.9에서 89.3으로 개선해 (+72.2% 상대) 있다.
- 장기 편집 스트림에서 평가된 방법들 중 NAS만이 초장기 편집에서 명확한 저하 없이 작동한다.
- NAS는 단 하나의 추가 코드 한 줄만 필요하고 계산 오버헤드가 무시할 만하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.