[论文解读] SimMerge: Learning to Select Merge Operators from Similarity Signals
SimMerge 是一种预测性合并选择方法,利用检查点之间的廉价相似性信号来选择合并运算符和合并顺序,在 7B 到 111B 模型上均优于固定运算符,并实现在线赌博机自适应。
Model merging combines multiple models into a single model with aggregated capabilities, making it a powerful tool for large language model (LLM) development. However, scaling model merging is challenging: performance depends on the choice of merge operator, model subset, and merge order, often requiring expensive merge-and-evaluate searches. In this work, we introduce SimMerge, a predictive merge-selection method that identifies high-performing merges using inexpensive, task-agnostic similarity signals between models. Given a small set of unlabeled probes, SimMerge extracts functional and structural features to predict the performance of candidate two-way merges, enabling merge operator, order and model subset selection without iterative evaluation. We show that SimMerge consistently outperforms the best fixed merge operator across 7B-parameter LLMs and generalizes to multi-way merges and 111B-parameter LLMs without retraining. We further introduce a bandit variant that supports adding new tasks and operators online. Our results suggest that learning how to merge enables scalable model composition when checkpoint catalogs are large and evaluation budgets are limited.
研究动机与目标
- 通过减少依赖昂贵的合并-评估搜索来推动可扩展的模型合并。
- 开发一个预测器,利用合并前的相似性信号来选择合并运算符和合并顺序。
- 在更大规模下将成对运算符选择扩展到高效的多路合并,且无需重新训练。
- 提供一个在线上下文赌博机变体以适应新任务、模型或运算符。
- 证明该方法从 7B 到 111B 参数模型以及在线环境中的可迁移性。
提出的方法
- 从功能性和结构性相似性(包括对数几率的 KL 散度、激活的余弦相似性、权重空间余弦距离、欧氏距离和注意力模式相似性)构造合并前特征向量 x(m_a, m_b, t);使用统计量将序列汇总为固定维度。
- 训练成对效用预测器 f_plan,使其输出对每个任务中每个运算符 o(Linear、Slerp、TIES)的预测效用;通过对预测效用取最大值来选择最佳运算符。
- 通过递归地使用同一成对特征预测中间效用来对多路合并计划进行打分,在不构造中间模型的情况下选择有序的合并序列。
- 引入带有神经-线性设计的上下文赌博机变体,在部分反馈下在线自适应运算符选择;用离线成对数据暖启动,并在选定臂上使用 LinTS(线性 Thompson 采样)更新。
- 在覆盖代码、数学、多语种、RAG 和指令任务的 7B 与 111B 模型上进行 2/3/4 路合并的评估;与固定运算符比较,并报告相对任务专家与辅助者的归一化差距。

实验结果
研究问题
- RQ1前合并的相似性信号是否可以预测在给定专家–辅助对下,哪一个合并运算符能带来最佳下游性能?
- RQ2成对相似性预测器是否能有效扩展到多路合并且无需额外监督或重新训练?
- RQ3在部分反馈下使用相同相似性特征的在线赌博机变体是否能高效适应新任务、模型和运算符?
- RQ4在没有重新训练的情况下,7B 学到的选择器是否能迁移到 111B 模型,并且当池中模型增多时性能如何扩展?
主要发现
- SimMerge 在 Code、Math、Multilingual 和 RAG 领域的 2/3/4 路合并中始终优于最佳固定合并运算符。
- 在任务平均层面,SimMerge 将专家–辅助性能差距缩小了 65.0%,而固定运算符的最佳表现为 41.8%。
- 学到的运算符选择还改善了合并顺序,相对于随机排序有显著提升(例如 Code +47 百分点)。
- 在 7B 成对合并上学习的运算符选择可迁移到 111B 的 3 路合并,且无需重新训练,同时保持对专家/辅助的有利权衡。
- 一个在线上下文赌博机变体(LinTS)在部分反馈下学习选择运算符,具有较低的遗憾并趋近于最优解的表现。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。