[論文レビュー] Linear Model Merging Unlocks Simple and Scalable Multimodal Data Mixture Optimization
この論文は、領域特化型マルチモーダル専門家の線形統合プロキシを用いて、マルチモーダル大規模言語モデルの監視付きファインチューニングのためのデータ混合を効率的にランク付けし、混合ごとの高コストな訓練を削減しつつランク付け順序を保持する手法を提案します。
Selecting the best data mixture is critical for successful Supervised Fine-Tuning (SFT) of Multimodal Large Language Models. However, determining the optimal mixture weights across multiple domain-specific datasets remains a significant bottleneck due to the combinatorial search space and the high cost associated with even a single training run. This is the so-called Data Mixture Optimization (DMO) problem. On the other hand, model merging unifies domain-specific experts through parameter interpolation. This strategy is efficient, as it only requires a single training run per domain, yet oftentimes leads to suboptimal models. In this work, we take the best of both worlds, studying model merging as an efficient strategy for estimating the performance of different data mixtures. We train domain-specific multimodal experts and evaluate their weighted parameter-space combinations to estimate the efficacy of corresponding data mixtures. We conduct extensive experiments on 14 multimodal benchmarks, and empirically demonstrate that the merged proxy models exhibit a high rank correlation with models trained on actual data mixtures. This decouples the search for optimal mixtures from the resource-intensive training process, thereby providing a scalable and efficient strategy for navigating the complex landscape of mixture weights. Code is publicly available at https://github.com/BerasiDavide/mLLMs_merging_4_DMO.
研究の動機と目的
- マルチモーダル LLM のファインチューニングにおけるデータ混合最適化(DMO)問題を動機づける。
- 訓練回数を大幅に減らす代理としてモデル統合を提案し、混合性能を推定する。
- 様々なモデル、ドメイン、予算に跨って、統合プロキシが真の混合性能と相関することを実証的に検証する。
- プロキシ手法のスケーラビリティと効率性を示すため、クロス予算および大規模モデル実験を含める。
提案手法
- 単一ドメインデータで K 個の領域特異的専門家を微調整して θ_i を得る(i=1..K)。
- 候補混合 w が単体 Δ^{K-1} にあるとき、統合プロキシ θ^M = sum_i w_i θ_i を構築する。
- ダウンストリームタスク上の性能指標 f(·) を用いて、混合プロキシと真の混合訓練モデルを比較する。
- f(θ^M) と f(θ^*) の順位相関を評価して、K、モデルサイズ、訓練戦略の変化に対するプロキシ品質を評価する。
- 局所凸性の下で線形結合が混合訓練を近似する理由を示す二次テイラー展開による理論的直感を提供する。
- 統合プロキシを回帰ベースの DMO アプローチと比較し、効率性の利点を示す。
実験結果
リサーチクエスチョン
- RQ1領域特異的専門家の線形結合が、データ混合で訓練されたモデルの性能を信頼性高く代理できるか。
- RQ2異なるモデルファミリとスケールにおいて、候補データ混合を統合プロキシがグリッド探索と比較してどれだけ正しくランク付けできるか。
- RQ3混合プロキシはより多くのドメインへスケール可能かつ、異なる訓練予算と最適化戦略(LoRA 対 全てのファインチューニング)で効果的か。
主な発見
- 統合プロキシは、2–4 ドメイン間で混合訓練されたモデルと高い順位相関を示す(Spearman 相関 0.57–0.78)。
- 統合プロキシによって選択された混合は、グリッド探索で得られた最良の混合に近づく、または一致することが多く、専門家系と汎用系の設定で小さな性能差。
- ドメイン数が増え、モデルサイズが 2B および 7B/8B の範囲でも、プロキシベースの選択は有効であり続ける。
- ターゲット予算の一部(例:100k サンプル中 50k)で訓練した専門家を使用しても、クロス予算の相関は強い。
- 回帰ベースの DMO 手法は、統合プロキシよりデータ効率が低く、同等のランキングを得るにははるかに多くの訓練回数を要することが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。