[论文解读] Linear Model Merging Unlocks Simple and Scalable Multimodal Data Mixture Optimization
论文提出使用领域特定多模态专家的线性合并代理来高效对数据混合进行排名,以便对多模态大模型进行监督微调,减少对每种混合体进行昂贵训练的需求,同时保持排序顺序。
Selecting the best data mixture is critical for successful Supervised Fine-Tuning (SFT) of Multimodal Large Language Models. However, determining the optimal mixture weights across multiple domain-specific datasets remains a significant bottleneck due to the combinatorial search space and the high cost associated with even a single training run. This is the so-called Data Mixture Optimization (DMO) problem. On the other hand, model merging unifies domain-specific experts through parameter interpolation. This strategy is efficient, as it only requires a single training run per domain, yet oftentimes leads to suboptimal models. In this work, we take the best of both worlds, studying model merging as an efficient strategy for estimating the performance of different data mixtures. We train domain-specific multimodal experts and evaluate their weighted parameter-space combinations to estimate the efficacy of corresponding data mixtures. We conduct extensive experiments on 14 multimodal benchmarks, and empirically demonstrate that the merged proxy models exhibit a high rank correlation with models trained on actual data mixtures. This decouples the search for optimal mixtures from the resource-intensive training process, thereby providing a scalable and efficient strategy for navigating the complex landscape of mixture weights. Code is publicly available at https://github.com/BerasiDavide/mLLMs_merging_4_DMO.
研究动机与目标
- 在多模态大模型微调中激发数据混合优化(DMO)问题。
- 提出模型合并作为代理,以在远少于训练次数的情况下估计混合性能。
- 实证验证合并代理与真实混合性能在不同模型、领域和预算下的相关性。
- 展示代理方法的可扩展性和效率,包括跨预算和更大模型的实验。
提出的方法
- 在单一领域数据上微调 K 个领域特定专家以获得 θ_i,i=1..K。
- 构造合并代理 θ^M = sum_i w_i θ_i,候选混合在简单集合 Δ^{K-1} 内。
- 在下游任务上使用性能度量 f(·) 来比较混合代理与真实混合训练模型。
- 评估 f(θ^M) 与 f(θ^*) 的秩相关性,以在不同 K、模型大小和训练策略下评估代理质量。
- 通过对二阶泰勒展开给出理论直觉,说明在局部凸性下线性组合近似混合训练的原因。
- 将合并代理与基于回归的 DMO 方法进行比较,并展示效率优势。
实验结果
研究问题
- RQ1线性合并领域特定专家是否能作为对在数据混合上训练的模型性能的可靠代理?
- RQ2相较于在不同模型家族和规模下的精确网格搜索评估,合并代理对候选数据混合的排序能力有多好?
- RQ3在更多领域下,合并代理是否具有可扩展性,并且在不同训练预算和优化策略(LoRA 与全微调)下是否有效?
主要发现
- 合并代理在 2–4 个领域内与混合训练模型的秩相关性较高(Spearman 相关性 0.57–0.78)。
- 通过合并代理选出的混合在网格搜索获得的最佳混合周围,通常达到相同或非常接近的性能,在专家化与通用化设置下差距较小。
- 随着领域数量增加和模型规模(2B 与 7B/8B)变化,基于代理的选择仍然有效。
- 使用目标预算的一小部分(如 10 万样本中的 5 万样本)训练的专家,仍然能获得强的跨预算相关性。
- 基于回归的 DMO 方法在数据效率方面显著弱于合并代理,通常需要更多的训练运行以达到类似的排序。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。