Skip to main content
QUICK REVIEW

[논문 리뷰] Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

Chi Andrew Zhang, Mengqi Zhang|arXiv (Cornell University)|2026. 01. 16.
Topic Modeling인용 수 0
한 줄 요약

이 논문은 순차적 지식 편집이 가중치 행렬의 스펙트럴 특성으로 인해 모델의 일반적 능력을 왜 붕괴시키는지 분석하고, 업데이트 중 지배적인 스펙트럴 부분공간을 보존하여 장기 편집 성능을 향상시키는 플러그-앤-플레이 방법인 REVIVE를 도입한다.

ABSTRACT

Sequential knowledge editing in large language models often causes catastrophic collapse of the model's general abilities, especially for parameter-modifying methods. Existing approaches mitigate this issue through heuristic constraints on parameter updates, yet the mechanisms underlying such degradation remain insufficiently understood. In this work, we present a spectral analysis of sequential knowledge editing and show that a model's general abilities are closely associated with dominant singular directions of pretrained weight matrices. These directions are highly sensitive to perturbations and are progressively disrupted by repeated edits, closely tracking the collapse in both editing efficacy and general performance. Building on this insight, we propose REVIVE, a plug-and-play framework that stabilizes sequential editing by explicitly preserving the dominant singular subspace. REVIVE represents parameter updates in the spectral basis of the original weights and filters components that would interfere with the protected region. Extensive experiments across multiple models and benchmarks show that REVIVE consistently improves editing efficacy while substantially preserving general abilities under long-horizon sequential editing, including extreme settings with up to 20,000 edits.

연구 동기 및 목표

  • 사전 학습된 가중치 행렬의 스펙트럴 특성으로 모델의 일반 능력에 순차적 편집이 미치는 영향을 식별한다.
  • 지배적 특이 방향이 일반 능력에 결정적이며, 섬세한 교란에 취약하다는 것을 증명한다.
  • 편집 중 지배적 스펙트럴 구조를 보존하는 플러그-앤-플레이 프레임워크(REVIVE)를 개발한다.
  • REVIVE를 다수의 모델과 장기 편집 벤치마크에 걸쳐 평가하여 편집 효율성 향상과 일반 능력의 보존을 보인다.

제안 방법

  • 원래 가중치 행렬의 특이 벡터 기반으로 매개변수 업데이트를 표현하여 편집을 스펙트럴 구성요소로 분해한다( Eq. 4 ).
  • 에너지 임계값 τ를 사용하여 지배적 특이 부분공간을 식별하고 이 영역에 간섭하는 구성요소를 제거하는 안전한 업데이트를 구성한다( Eq. 5 및 Eq. 6 ).
  • REVIVE를 플러그-인 플레이 래퍼로 적용하여 낮은 에너지 방향에서의 편집을 허용하면서 지배적 부분공간을 보존한다.
  • 스펙트럴 지표(저차원 부분공간 유사성 및 특이 벡터 유사성)를 사용하여 연속 편집 중 지배적 부분공간의 드리프트를 모니터링한다.
  • COUNTERFACT 및 ZSRE 벤치마크를 사용하여 LLaMA3, GPT-J, GPT-2-XL에서 MEMIT, PRUNE, RECT, ALPHAEDIT, DELTAEDIT, NSE와 비교 평가한다.

실험 결과

연구 질문

  • RQ1사전 학습된 가중치 행렬에서 일반 능력에 가장 큰 책임이 있는 스펙트럴 구조는 무엇인가?
  • RQ2순차적 편집은 이러한 스펙트럴 구조를 어떻게 교란하며, 이것이 성능 붕괴와 어떻게 연결되는가?
  • RQ3편집 중 지배적 특이 부분공간을 보존하면 장기 순차 편집에서 편집 효율성을 손실 없이 안정화시킬 수 있는가?

주요 결과

  • 일반 능력은 특이 구성요소의 상위 5%에 매우 집중되어 있으며, 그 구성요소만으로도 약 62.6%의 성능 회복이 가능하다.
  • 지배적 스펙트럴 방향은 교란에 매우 민감하고 교란될 때 빠르게 저하되어 성능 붕괴와 연관된다.
  • 순차적 편집은 지배적 특이 부분공간을 점진적으로 왜곡하며, LS 및 SS와 같은 측정치가 지배적 방향의 거시적 드리프트와 미시적 회전을 나타낸다.
  • REVIVE는 모델과 벤치마크 전반에서 편집 효능을 지속적으로 개선하고, 장기간 편집 시퀀스(최대 20,000개의 편집)에서 GLUE 일반 능력을 크게 보존한다.
  • REVIVE는 장기간 편집 시퀀스 동안 비정상적인 가중치 노름 증가를 감소시켜 안정성을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.