[论文解读] Sparsity-Aware Evolution for Model Merging
该论文提出一种稀疏感知进化框架(SAE)用于模型合并,将剪枝和稀疏驱动信号整合到适应度函数中,从而提升合并后的大语言模型的可靠性和模块化。在 GSM8K 和 MMLU-ProX 的多种架构规模上,相较于强基线表现出一致的提升。
We propose a sparsity-aware evolutionary (SAE) framework for model merging that involves iterative pruning-merging cycles to act as a novel mutation operator. We incorporate the sparsity constraints into the score function, which steers the evolutionary process to favor more sparse models, in addition to other conventional performance scores. Interestingly, the by-product of extit{competition} for sparsity introduces an extra local extit{attraction} and interplay into the evolutionary process: if one competitor has more zero elements, the other competitor's non-zero elements will occupy those positions, even though the less sparse competitor loses to the more sparse competitor in other positions. The proposed pipeline is evaluated on a variety of large-scale LLM benchmarks. Experiments demonstrate that our approach can improve model merging reliability across multiple benchmarks, and is easy to incorporate due to its simplicity and being orthogonal to most existing approaches.
研究动机与目标
- 在不重新训练的前提下,推动并支持多模型的可靠合并。
- 在一个进化式合并框架中,将稀疏性作为主动调控信号。
- 开发剪枝–再密集化循环,以创建模块化、冲突-free 的子网络。
提出的方法
- 采用一种通过基于种群的剪枝和重组在合并空间中搜索的进化模型合并框架。
- 计算逐层混合比,结合性能分数和逐层稀疏信号。
- 将剪枝作为适应度函数的一部分,以在父模型间创建竞争与吸引动力。
- 使用类似退火的循环稀疏化调度,以平衡探索与巩固。
- 使用多样化模型的档案以促进种群多样性和鲁棒合并。

实验结果
研究问题
- RQ1将稀疏性整合到合并目标是否相较于密集基线提升了合并后大语言模型的可靠性和模块化?
- RQ2稀疏驱动的竞争与吸引如何影响模型合并过程中的参数空间探索?
- RQ3档案大小、稀疏性调度与稀疏性度量对合并性能有何影响?
- RQ4SAE 是否能够在大语言模型上对数学推理与多语理解等任务实现泛化?
主要发现
| 方法 | 数学 + 多语 | GSM8K | MMLU-ProX | 平均值 |
|---|---|---|---|---|
| 任务运算 | 0.741 | 0.187 | 0.464 | - |
| 权重加权平均 | 0.742 | 0.185 | 0.464 | - |
| Rankmean | 0.137 | 0.176 | 0.157 | - |
| PSO | 0.7801 | 0.164 | 0.472 | - |
| SAE(全局) | 0.798 | 0.170 | 0.484 | - |
| SAE(局部) | 0.7748 | 0.182 | 0.478 | - |
- SAE 在 GSM8K 和 MMLU-ProX 的各任务与各架构上持续优于 PSO(全局 SAE: 0.798/0.170/0.484;局部 SAE: 0.7748/0.182/0.478)。
- 稀疏感知评分引出双向竞争–吸引动力,促进更稀疏、模块化的解并减少破坏性干扰。
- 增大档案规模可提升 SAE 在 MMLU-ProX 上的表现,表明档案多样性有助于多语理解。
- 消融显示更广的稀疏率范围和零计数稀疏性度量可提升性能,且逐层稀疏性对任务有依赖性的影响。
- 循环稀疏调度提升多语言泛化与整体稳定性,且更长的循环扩展有助于探索。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。