[論文レビュー] Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations
要約: 本論文は Streaming Merging(ストリーミング・マージ)という反復的更新パラダイムと ARM(Activation-guided Rotation-aware Merging)を提案し、活性化由来の方向を回転させることによって勾配降下を近似し、早期チェックポイントからのマージが収束済みのファインチューニングを超えることを示す。
The escalating scale of Large Language Models (LLMs) necessitates efficient adaptation techniques. Model merging has gained prominence for its efficiency and controllability. However, existing merging techniques typically serve as post-hoc refinements or focus on mitigating task interference, often failing to capture the dynamic optimization benefits of supervised fine-tuning (SFT). In this work, we propose Streaming Merging, an innovative model updating paradigm that conceptualizes merging as an iterative optimization process. Central to this paradigm is extbf{ARM} ( extbf{A}ctivation-guided extbf{R}otation-aware extbf{M}erging), a strategy designed to approximate gradient descent dynamics. By treating merging coefficients as learning rates and deriving rotation vectors from activation subspaces, ARM effectively steers parameter updates along data-driven trajectories. Unlike conventional linear interpolation, ARM aligns semantic subspaces to preserve the geometric structure of high-dimensional parameter evolution. Remarkably, ARM requires only early SFT checkpoints and, through iterative merging, surpasses the fully converged SFT model. Experimental results across model scales (1.7B to 14B) and diverse domains (e.g., math, code) demonstrate that ARM can transcend converged checkpoints. Extensive experiments show that ARM provides a scalable and lightweight framework for efficient model adaptation.
研究の動機と目的
- 大規模言語モデルの継続的・ストリーミング更新による効率的なモデル適応の動機付け。
- マージを静的な補間ではなく、最適化に類するプロセスとして再定義。
- データ駆動の活性化サブスペースに更新を整合させるための ARM を導入。
- ストリーミング ARM がスケールとタスクを跨いで完全収束済みの監視付きファインチューニングを超えることを示す。
提案手法
- ストリーミング・マージを中間チェックポイント列の反復更新ルールとして定義。
- 活性化シフトの SVD による活性化サブスペースからの回転行列でタスクベクトルを回転させる ARM を導入。
- 安定性と可塑性のバランスを取るためにアンカー付けとスライディングウィンドウ方式を用いたマージ更新を定式化。
- 活性化方向と勾配降下更新との理論的な関係を導出。
- 複数のモデル規模(1.7B–14B)とタスク(数学、コード)で Streaming Merging 内の ARM を評価。
実験結果
リサーチクエスチョン
- RQ1ストリーミングで反復的なマージは、固定タスク内で後付けのマージや完全ファインチューニングを上回るか。
- RQ2活性化誘導回転はマージをアフィン部分空間を超えて勾配ベースの更新を模倣できるか。
- RQ3ARM は早期チェックポイントに頑健で、モデルサイズとドメインを超えてスケール可能か。
- RQ4ストリーミング ARM は標準ファインチューニングの完全収束後の性能を改善できるか。
- RQ5ARM は RL 編集や低ランクリファインメントとどのように相互作用するか。
主な発見
- ARM を Streaming Merging に組み合わせると、モデル規模を跨いだ最良の性能を達成(例:構成全体で平均スコア 42.5–59.3) 。
- ARM は完全収束した SFT チェックポイントを上回り、特定のケースで +0.7 や +3.0 の精度ポイントの改善を実現。
- ストリーミング・マージは ARM と組み合わせると長期的な学習依存を減少させ、収束前には通常 2–6 回の反復で、停滞後には少なくなる。
- ARM は収束済みモデルに追加して効果を維持し、さらに性能を押し上げる(例:14B で 1.8 ポイントのゲイン)。
- コードタスクでは、Qwen2.5-7B でストリーミング・マージ後の平均が最も高く(48.2)、TA を 0.2 点上回る。
- ARM は RL 編集手法と組み合わせて追加のゲインを生み、低ランク編集との互換性を示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。