Skip to main content
QUICK REVIEW

[논문 리뷰] When Shared Knowledge Hurts: Spectral Over-Accumulation in Model Merging

Yayuan Li, Ze Peng|arXiv (Cornell University)|2026. 02. 05.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

본 논문은 작업들이 스펙트럴 방향을 공유할 때 모델 병합에서 스펙트럴 과다 카운트가 실패 모드로 작용함을 식별하고, Singular Value Calibration (SVC)을 제안한다. 이는 데이터- 및 학습-프리(post-processing) 후처리 방법으로, 스펙트럴 공간에서 특이값을 조정해 병합된 모델을 재보정한다.

ABSTRACT

Model merging combines multiple fine-tuned models into a single model by adding their weight updates, providing a lightweight alternative to retraining. Existing methods primarily target resolving conflicts between task updates, leaving the failure mode of over-counting shared knowledge unaddressed. We show that when tasks share aligned spectral directions (i.e., overlapping singular vectors), a simple linear combination repeatedly accumulates these directions, inflating the singular values and biasing the merged model toward shared subspaces. To mitigate this issue, we propose Singular Value Calibration (SVC), a training-free and data-free post-processing method that quantifies subspace overlap and rescales inflated singular values to restore a balanced spectrum. Across vision and language benchmarks, SVC consistently improves strong merging baselines and achieves state-of-the-art performance. Furthermore, by modifying only the singular values, SVC improves the performance of Task Arithmetic by 13.0%. Code is available at: https://github.com/lyymuwu/SVC.

연구 동기 및 목표

  • 미세 조정된 여러 작업 업데이트를 병합하는 것이 명백한 정렬에도 불구하고 왜 성능 저하를 초래하는지 동기를 부여하고 분석한다.
  • 정렬된 스펙트럴 방향이 공유된 지식의 과다 카운팅과 최상 특이값의 팽창으로 이어지는 방식을 특징지운다.
  • 병합 후 스펙트럴 균형을 회복하기 위해 데이터가 필요 없고 학습이 필요 없는 특이값 보정 방법을 제안한다.
  • SVC가 비전과 언어 벤치마크 전반에서 최첨단의 이득을 낳는다는 것을 입증한다.

제안 방법

  • 각 작업을 사전 학습된 백본 W_pre에 대해 DeltaW_i로서 작업 매트릭스로 표현한다.
  • 베이스 병합 방법을 사용하여 DeltaW_merge를 얻고 작업 업데이트를 병합한다.
  • DeltaW_merge의 SVD를 계산하여 공유 열 공간 기저 U와 특이값 sigma를 얻는다.
  • 각 부분 공간 r에 대해 DeltaW_i를 왼쪽 특이 벡터 u^r에 투영하여 a_r^i를 얻고 투영 계수 s_i^r를 계산한다.
  • 작업 간 공간에서 s_i^r를 모아 보정 계수 gamma^r를 형성하고 해당 특이값을 보정한다: tilde_sigma^r = gamma^r sigma^r (gamma^r는 gamma^r = K / sum_i max(alpha, s_i^r)로 도출).
  • 보정된 병합 업데이트 DeltaW_tilde_merge = sum_r tilde_sigma^r u^r (v^r)^T를 재구성하고 W_merge = W_pre + DeltaW_tilde_merge를 출력한다.
  • 이 방법은 데이터 프리이며 학습 프리로, 병합된 스펙트럴 기준에서의 투영과 부분공간별 보정 매개변수 alpha(기본값 1/K)에 의존한다.
Figure 1 : Shared knowledge accumulation in model merging. When merging task matrices ( $\Delta\mathbf{W}_{i}$ ) from multiple tasks, shared knowledge that aligns across tasks can be over-counted, resulting in singular-value inflation in the merged model’s spectrum. This inflation is concentrated in
Figure 1 : Shared knowledge accumulation in model merging. When merging task matrices ( $\Delta\mathbf{W}_{i}$ ) from multiple tasks, shared knowledge that aligns across tasks can be over-counted, resulting in singular-value inflation in the merged model’s spectrum. This inflation is concentrated in

실험 결과

연구 질문

  • RQ1병합 시 스펙트럴 정렬에도 불구하고 성능 저하를 유발하는 원인은 무엇인가?
  • RQ2스펙트럴 부분 공간 간의 크로스 태스크 정렬이 병합 모델의 특이값 팽창에 어떻게 기여하는가?
  • RQ3데이터가 필요 없고 사후에 수행하는 보정으로 스펙트럴 균형을 회복하고 병합 후 성능을 개선할 수 있는가?
  • RQ4병합된 스펙트럴 기준에서 특이값 보정만으로 비전 및 언어 작업에서 최첨단 성능을 달성할 수 있는가?

주요 결과

  • 스펙트럴 과다 카운트는 상위 스펙트럴 부분공간에 집중되어 상위 특이값을 팽창시키고 병합된 모델이 공유 방향으로 편향되게 한다.
  • 투영 분석은 각 작업 방향에 따른 병합 응답이 동일한 부분공간에서 다른 작업이 양의 기여를 할 때 과도하게 증폭될 수 있음을 보여준다(s_i^r > 1).
  • SVC는 투영 계수를 통해 부분공간 간 겹침을 정량화하고 팽창한 특이값을 재스케일링하여 균형 잡힌 스펙트럼으로 복원한다.
  • 비전 벤치마크에서 SVC는 해당 설정에서 Task Arithmetic를 13.0% 개선하고 다른 병합 기준에서도 상당한 이득을 제공한다.
  • NLP 벤치마크 전반에서 SVC는 다수의 모델과 작업에서 최첨단 성능을 달성했으며, LLM 및 인코더 기반 설정에서의 개선도 포함된다.
  • SVC는 방향성을 유지하면서 특이값만 조정하므로 경량의 데이터 프리 후처리 솔루션을 제공한다.
Figure 2 : Discrepancy between original and calibrated singular values. For weight-space addition, we compare the original singular values $\sigma$ from $\mathrm{SVD}(\Delta\mathbf{W}_{\mathrm{merge}})$ with the calibrated values $\sigma^{\star}$ , where $\sigma^{\star}$ is obtained by first computi
Figure 2 : Discrepancy between original and calibrated singular values. For weight-space addition, we compare the original singular values $\sigma$ from $\mathrm{SVD}(\Delta\mathbf{W}_{\mathrm{merge}})$ with the calibrated values $\sigma^{\star}$ , where $\sigma^{\star}$ is obtained by first computi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.