[論文レビュー] TIES-Merging: Resolving Interference When Merging Models
Ties-Merging(TrIm、Elect Sign & Merge)は、冗長なパラメータをトリミングし、符号衝突を解決し、選択された符号に一致するパラメータだけを統合することで、複数の微調整済みモデルを統合します。NLPおよびビジョンタスク全体で、既存の統合手法を上回ります。
Transfer learning - i.e., further fine-tuning a pre-trained model on a downstream task - can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific fine-tuned models, which typically can only perform a single task and do not benefit from one another. Recently, model merging techniques have emerged as a solution to combine multiple task-specific models into a single multitask model without performing additional training. However, existing merging methods often ignore the interference between parameters of different models, resulting in large performance drops when merging multiple models. In this paper, we demonstrate that prior merging techniques inadvertently lose valuable information due to two major sources of interference: (a) interference due to redundant parameter values and (b) disagreement on the sign of a given parameter's values across models. To address this, we propose our method, TRIM, ELECT SIGN & MERGE (TIES-Merging), which introduces three novel steps when merging models: (1) resetting parameters that only changed a small amount during fine-tuning, (2) resolving sign conflicts, and (3) merging only the parameters that are in alignment with the final agreed-upon sign. We find that TIES-Merging outperforms several existing methods in diverse settings covering a range of modalities, domains, number of tasks, model sizes, architectures, and fine-tuning settings. We further analyze the impact of different types of interference on model parameters, and highlight the importance of resolving sign interference. Our code is available at https://github.com/prateeky2806/ties-merging
研究の動機と目的
- マルチタスク能力と一般化のために、タスク固有の微調整モデルを統合することが望ましい理由を動機づける。
- 単純なモデル統合時の干渉の原因を特定し。その影響を定量化する。
- マルチタスク性能を向上させるための三段階の統合手順(トリム、符号選定、分離統合)を提案し、検証する。
- モダリティ、モデルサイズ、微調整レジームを跨いでTies-Mergingを評価し、検証データの有無を含む設定を含む。
提案手法
- 各タスクをタスクベクトル tau_t = theta_ft^t - theta_init として表現する。
- トリム: 各 tau_t の大きさが上位 k% の値のみを保持し、それ以外はゼロにリセットする。
- Elect: トリムされたタスクベクトルの和の符号を取って、選出された符号 gamma_m を計算する。
- 分離統合: 各パラメータについて、選出された符号と一致するトリム値のみを平均し、ゼロ値を無視する。
- theta_m = theta_init + lambda * tau_m で統合する。tau_m は整列された符号から形成された分離平均ベクトルである。
- NLPとビジョンのベンチマークで、Simple Averaging、Fisher Merging、RegMean、Task Arithmetic などのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1統合時のモデルパラメータ間の干渉を特徴づけ、緩和できるか。
- RQ2冗長なパラメータをトリミングし符号衝突を解決することで、複数の微調整モデルを統合した際のマルチタスク性能が向上するか。
- RQ3モダリティ(言語と視覚)、モデルサイズ、微調整レジーム(フル vs PEFT)において、既存手法と比較してTies-Mergingはどの程度機能するか。
- RQ4符号解像度は、統合後のパラメータの大きさとタスク性能を維持・向上させるうえで必須か。
- RQ5統合時に検証データが利用できない場合のTies-Mergingの頑健性はどの程度か。
主な発見
- 検証データの有無に関わらず、Ties-MergingはNLPおよびビジョンタスクで既存の統合手法を一貫して上回る。
- インドメイン評価で、NLPで平均2.3%の絶対改善、ビジョンで1.7%の改善を最も強力なベースラインに対して達成。
- ドメイン外一般化で、最強のベースラインに対して、T5-baseで1.0%、T5-largeで4.4%の絶対改善。
- 検証データなしの場合でも、固定レシピ(上位20%トリム、lambda=1)を用いたTies-Mergingは、視覚・NLPタスクでTask Arithmeticなどのベースラインを上回る。
- アブレーション試験では、トリム、符号選定、分離平均成分の削除が性能低下を招くことを示し、スケーリングと分離平均がゲインに顕著に寄与。
- 符号干渉の解消は極めて重要である。上位大きさのパラメータの向きを反転させると性能が壊滅的に低下する可能性があるため、正しい符号推定の重要性を強調する。」],
- table_headers: [],
- table_rows: []} {
- }]} }? (表の構造が崩れてしまわないよう、JSON形式として正しく閉じてください。
- title":"Ties-Merging(TrIm、Elect Sign & Merge)"} (Note: The assistant above had formatting issues; the intended output is the JSON object shown above.) } } (End)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。