Skip to main content
QUICK REVIEW

[论文解读] When Shared Knowledge Hurts: Spectral Over-Accumulation in Model Merging

Yayuan Li, Ze Peng|arXiv (Cornell University)|Feb 5, 2026
Domain Adaptation and Few-Shot Learning被引用 0
一句话总结

论文将光谱过度计数识别为模型合并中的失败模式,当任务共享光谱方向时,提出 Singular Value Calibration (SVC),一种无需数据和训练的后处理方法,通过在光谱空间中调整奇异值来重新校准合并模型。

ABSTRACT

Model merging combines multiple fine-tuned models into a single model by adding their weight updates, providing a lightweight alternative to retraining. Existing methods primarily target resolving conflicts between task updates, leaving the failure mode of over-counting shared knowledge unaddressed. We show that when tasks share aligned spectral directions (i.e., overlapping singular vectors), a simple linear combination repeatedly accumulates these directions, inflating the singular values and biasing the merged model toward shared subspaces. To mitigate this issue, we propose Singular Value Calibration (SVC), a training-free and data-free post-processing method that quantifies subspace overlap and rescales inflated singular values to restore a balanced spectrum. Across vision and language benchmarks, SVC consistently improves strong merging baselines and achieves state-of-the-art performance. Furthermore, by modifying only the singular values, SVC improves the performance of Task Arithmetic by 13.0%. Code is available at: https://github.com/lyymuwu/SVC.

研究动机与目标

  • 推动并分析为何在看似对齐的情况下合并微调任务更新会降低性能。
  • 表征对齐的光谱方向如何导致共享知识的过度计数和顶奇异值的膨胀。
  • 提出一种无需数据、无需训练的方法来校准奇异值并在合并后恢复光谱平衡。
  • 证明 SVC 在视觉和语言基准上实现了前沿提升。

提出的方法

  • 将每个任务表示为相对于预训练骨干 W_pre 的任务矩阵 DeltaW_i。
  • 使用基础合并方法合并任务更新以获得 DeltaW_merge。
  • 对 DeltaW_merge 进行 SVD,得到共享的列空间基 U 和奇异值 sigma。
  • 对于每个子空间 r,将每个 DeltaW_i 投影到左奇异向量 u^r,得到 a_r^i 并计算投影系数 s_i^r。
  • 将所有任务的 s_i^r 汇聚以形成校准因子 gamma^r,并校准相应的奇异值:tilde_sigma^r = gamma^r sigma^r(gamma^r 由 gamma^r = K / sum_i max(alpha, s_i^r) 得出)。
  • 重构校准后的合并更新 DeltaW_tilde_merge = sum_r tilde_sigma^r u^r (v^r)^T,输出 W_merge = W_pre + DeltaW_tilde_merge。
  • 该方法无需数据且无需训练,依赖于合并光谱基中的投影以及子空间层面的校准参数 alpha(默认值为 1/K)。
Figure 1 : Shared knowledge accumulation in model merging. When merging task matrices ( $\Delta\mathbf{W}_{i}$ ) from multiple tasks, shared knowledge that aligns across tasks can be over-counted, resulting in singular-value inflation in the merged model’s spectrum. This inflation is concentrated in
Figure 1 : Shared knowledge accumulation in model merging. When merging task matrices ( $\Delta\mathbf{W}_{i}$ ) from multiple tasks, shared knowledge that aligns across tasks can be over-counted, resulting in singular-value inflation in the merged model’s spectrum. This inflation is concentrated in

实验结果

研究问题

  • RQ1合并多个任务更新时尽管存在光谱对齐,导致性能下降的原因是什么?
  • RQ2在光谱子空间中的跨任务对齐如何导致合并模型的奇异值膨胀?
  • RQ3能否在事后、无需数据的情况下进行校准以恢复光谱平衡并提升下游性能?
  • RQ4在视觉和语言任务中,校准合并光谱基中的奇异值是否足以达到前沿效果?

主要发现

  • 光谱过度计数集中在少数顶层光谱子空间,膨胀了顶层奇异值并使合并模型偏向于共享方向。
  • 投影分析表明,当同一子空间的其他任务也贡献正向信号时,沿每个任务方向的合并响应可能被过度放大(s_i^r > 1)。
  • SVC 通过投影系数量化子空间重叠,并重新缩放膨胀的奇异值以恢复平衡的光谱。
  • 在视觉基准中,SVC 在该设置下将 Task Arithmetic 提升了 13.0%,并在其他合并基线上带来显著收益。
  • 在 NLP 基准中,SVC 在多种模型与任务上达到前沿性能,包括对 LLM 与基于编码器的设置的改进。
  • SVC 保留方向仅调整奇异值,提供一个轻量且无需数据的后处理方案。
Figure 2 : Discrepancy between original and calibrated singular values. For weight-space addition, we compare the original singular values $\sigma$ from $\mathrm{SVD}(\Delta\mathbf{W}_{\mathrm{merge}})$ with the calibrated values $\sigma^{\star}$ , where $\sigma^{\star}$ is obtained by first computi
Figure 2 : Discrepancy between original and calibrated singular values. For weight-space addition, we compare the original singular values $\sigma$ from $\mathrm{SVD}(\Delta\mathbf{W}_{\mathrm{merge}})$ with the calibrated values $\sigma^{\star}$ , where $\sigma^{\star}$ is obtained by first computi

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。