Skip to main content
QUICK REVIEW

[論文レビュー] Least but not Last: Fine-tuning Intermediate Principal Components for Better Performance-Forgetting Trade-Offs

Alessio Quercia, Arya Bangun|arXiv (Cornell University)|Feb 3, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

この論文は LoRA ベースのパラメータ効率的微調整における性能喪失トレードオフを分析し、中間主成分での微調整が極端な成分(PiSSA または MiLoRA)よりも精度と喪失のバランスを改善することを示す。視覚・言語タスクを横断して、一般化された成分レベルの LoRA 初期化を提案し検証する。

ABSTRACT

Low-Rank Adaptation (LoRA) methods have emerged as crucial techniques for adapting large pre-trained models to downstream tasks under computational and memory constraints. However, they face a fundamental challenge in balancing task-specific performance gains against catastrophic forgetting of pre-trained knowledge, where existing methods provide inconsistent recommendations. This paper presents a comprehensive analysis of the performance-forgetting trade-offs inherent in low-rank adaptation using principal components as initialization. Our investigation reveals that fine-tuning intermediate components leads to better balance and show more robustness to high learning rates than first (PiSSA) and last (MiLoRA) components in existing work. Building on these findings, we provide a practical approach for initialization of LoRA that offers superior trade-offs. We demonstrate in a thorough empirical study on a variety of computer vision and NLP tasks that our approach improves accuracy and reduces forgetting, also in continual learning scenarios.

研究の動機と目的

  • LoRA スタイルのパラメータ効率的微調整における性能-喪失トレードオフを動機づけ、分析する。
  • 異なる主成分を微調整することが喪失とタスク精度に与える影響を調べる。
  • 一般化された中間主成分 LoRA 初期化を提案する。
  • 提案手法を computer vision および NLP タスクで実証的に検証する。
  • より頑健で安定性-適塑性のバランスを取る PEFT 手法の設計洞察を提供する。

提案手法

  • 重み行列の一般化された SVD に基づく分解を用いて LoRA のアップデートを表現し、連続する主成分のブロックに更新を限定する(A = U_{s,s+r} Σ^{1/2}_{s,s+r}, B = Σ^{1/2}_{s,s+r} V^{T}_{s,s+r})。
  • PiSSA(s=0)および MiLoRA(s=m−r)を一般化して、中間成分を s からランク r で調整できるようにする。
  • パラメータ更新を対角成分変化(主値の変化)と非対角成分変化(方向の変化)に分解して、成分間の安定性-可塑性を定量化する(式6–7)。
  • 微調整後の出力を元の特徴空間に射影して ΔΣ_Y を分析することで特徴空間の変化を分解する(式11)。
  • 多様な Vision & NLP タスクで忘却と精度を実証的に分析し、最適な中間成分の範囲を特定する。
  • 中間成分初期化戦略を提案・評価し、性能-忘却トレードオフの改善を示す。
Figure 1 : Accuracy (left) and forgetting (right) when fine-tuning principal components on ImageNet1k pre-trained ViT-B to Caltech101. Forgetting shows a U-shape with most information lost at the extremes where existing methods PiSSA use the main, and MiLoRA the least components, respectively.
Figure 1 : Accuracy (left) and forgetting (right) when fine-tuning principal components on ImageNet1k pre-trained ViT-B to Caltech101. Forgetting shows a U-shape with most information lost at the extremes where existing methods PiSSA use the main, and MiLoRA the least components, respectively.

実験結果

リサーチクエスチョン

  • RQ1異なる主成分スライス(極端 vs 中間)がタスク間で事前学習知識の忘却にどのように影響するか?
  • RQ2中間主成分は PiSSA および MiLoRA よりもさまざまな学習設定でより良い精度-忘却トレードオフを提供するか?
  • RQ3訓練期間と学習率が主成分間の忘却ダイナミクスに与える役割は?
  • RQ4中間成分に対する一般化 LoRA 初期化は視覚・言語領域を跨いで一般化できるか?
  • RQ5成分ごとの忘却分析がより頑健な PEFT 手法の設計にどのような示唆を与えるか?

主な発見

  • 中間主成分での微調整は、視覚と NLP タスク全般で極端な成分(PiSSA や MiLoRA)よりも性能-忘却トレードオフを改善する。
  • 極端な成分では忘却が成分ランクに対して U 字型の依存を示し、端部で事前学習知識への影響が大きい。
  • 中間成分はより高い学習率に対しても頑健で、忘却を減らしつつタスク精度を維持する。
  • 一般化された SVD ベースの LoRA 定式化は PiSSA と MiLoRA を特別な場合として包含し、成分ごとの忘却の体系的な分析を可能にする。
  • ImageNet1k→Caltech101 および NLP タスクでの実証結果は、中間成分を使用することでトレードオフが改善され、精度は同等または優れ、忘却が減少することを示す。
Figure 2 : PiSSA, MiLoRA and our proposed approach.
Figure 2 : PiSSA, MiLoRA and our proposed approach.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。