Skip to main content
QUICK REVIEW

[論文レビュー] LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging

Xinyu Wang, Ke Deng|arXiv (Cornell University)|Feb 10, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

LARVはデータフリーの veneer で、統合前にタスクベクトルの差分に対して層ごとのスケールを割り当て、再学習なしに複数のマージ基準で視覚トランスフォーマーの層間干渉処理を改善する。

ABSTRACT

Model merging aims to combine multiple fine-tuned models into a single multi-task model without access to training data. Existing task-vector merging methods such as TIES, TSV-M, and Iso-C/CTS differ in their aggregation rules but treat all layers nearly uniformly. This assumption overlooks the strong layer-wise heterogeneity in large vision transformers, where shallow layers are sensitive to interference while deeper layers encode stable task-specific features. We introduce LARV, a training-free, data-free, merger-agnostic Layer-wise Adaptive Rescaling Veneer that plugs into any task-vector merger and assigns a per-layer scale to each task vector before aggregation, and show it consistently boosts diverse merging rules. LARV adaptively suppresses shallow-layer interference and amplifies deeper-layer alignment using a simple deterministic schedule, requiring no retraining or modification to existing mergers. To our knowledge, this is the first work to perform layer-aware scaling for task-vector merging. LARV computes simple data-free layer proxies and turns them into scales through a lightweight rule; we study several instantiations within one framework (e.g., tiered two/three-level scaling with fixed values, or continuous mappings) and show that tiered choices offer the best robustness, while continuous mappings remain an ablation. LARV is orthogonal to the base merger and adds negligible cost. On FusionBench with Vision Transformers, LARV consistently improves all task-vector baselines across 8/14/20-task settings; for example, Iso-C + LARV reaches 85.9% on ViT-B/32, 89.2% on ViT-B/16, and 92.6% on ViT-L/14. Layerwise analysis and corruption tests further indicate that LARV suppresses shallow-layer interference while modestly amplifying deeper, task-stable features, turning model merging into a robust, layer-aware procedure rather than a uniform one.

研究の動機と目的

  • 大規模ビジョントランスフォーマーにおける層ごとの異質性をマージ干渉の要因として動機づける。
  • データフリーの veneer(LARV)を提案し、マージ前に各層のタスクベクトル差分をスケールする。
  • 層を意識した再スケーリングが、バックボーンとタスクを跨ぐ様々なベースのマージ規則を改善することを示す。
  • データや再訓練を要さず、診断と単純で頑健な実装を提供する。

提案手法

  • 各タスクを事前学習済みのベース θ0 からの差分として表現し、ベース・マージャー M で各層の差分をマージする。
  • 重みからデータフリーの層ごとの診断量を2つ計算する:Effective-Rank Contrast e_l および Commutator Conflict Coefficient c_l。
  • e_l, c_l, 深さ priors r_l から複合的な層スコア w_l を形成し、連続ゲートまたは階層型スキームのいずれかを用いて w_l を層ごとのスケール s_l に写像する。
  • θ0 に加える前に各層のマージ済み差分を s_l で再スケーリングし、 theta_LARV = theta0 + s_l * Δθ_l を得る。
  • 連続ゲート(1 + 0.5 tanh)と階層型(0.5/1.0/1.5)という2つのゲーティング変種を、固定閾値付きで提供する。
  • 勾配やラベル付きデータを必要とせず、ほぼあらゆるベースマージャーと互換性があり、オーバーヘッドが極めて小さいことを示す。

実験結果

リサーチクエスチョン

  • RQ1データフリーの既存タスクベクトルマージに対して、層ごとのデータフリースケーリングは性能を改善するか?
  • RQ2層ごとの診断量 e_l および c_l は、層ごとの情報豊富さと干渉を信頼性高く捉え、局所的なスケーリングを正当化するか?
  • RQ3LARV はデータ不要・チューニングなしで、複数のバックボーン・タスク数・マージ規則に対して有効か?
  • RQ4LARV は浅層の干渉を抑制し、期待どおり深層の整合性を高めるか?
  • RQ5LARV の計算オーバーヘッドと実運用上の統合負担はどれくらいか?

主な発見

  • LARV はViTバックボーンとタスク設定(8/14/20タスク)全てのベースマージ規則で一貫して性能を向上させた。
  • 層ごとのスケーリングは小さなバックボーンや難易度の高いマージでより大きな利得を生み、干渉への頑健性を示す。
  • 2つのデータフリーメトリクス e_l および c_l が層ごとのスケーリングを信頼性高く案内し、深さ priors が veneer の安定性をさらに高める。
  • LARV はデータ無しで再訓練せずとも 分布内精度を維持または向上させ、見たことのないデータセットへの一般化を強化する。
  • 本手法はコストがほとんど増えず、チューニング・勾配・データを要しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。