[論文レビュー] Revisiting Weight Regularization for Low-Rank Continual Learning
この論文は EWC-LoRA を提案します。これは大規模事前学習モデルに対する低ランク continual learning のための重み正則化ベースの手法であり、より多くのタスクを扱ってもメモリを増やさずに安定性と可塑性のトレードオフを有利にします。
Continual Learning (CL) with large-scale pre-trained models (PTMs) has recently gained wide attention, shifting the focus from training from scratch to continually adapting PTMs. This has given rise to a promising paradigm: parameter-efficient continual learning (PECL), where task interference is typically mitigated by assigning a task-specific module during training, such as low-rank adapters. However, weight regularization techniques, such as Elastic Weight Consolidation (EWC)-a key strategy in CL-remain underexplored in this new paradigm. In this paper, we revisit weight regularization in low-rank CL as a new perspective for mitigating task interference in PECL. Unlike existing low-rank CL methods, we mitigate task interference by regularizing a shared low-rank update through EWC, thereby keeping the storage requirement and inference costs constant regardless of the number of tasks. Our proposed method EWC-LoRA leverages a low-rank representation to estimate parameter importance over the full-dimensional space. This design offers a practical, computational- and memory-efficient solution for CL with PTMs, and provides insights that may inform the broader application of regularization techniques within PECL. Extensive experiments on various benchmarks demonstrate the effectiveness of EWC-LoRA, achieving a stability-plasticity trade-off superior to existing low-rank CL approaches. These results indicate that, even under low-rank parameterizations, weight regularization remains an effective mechanism for mitigating task interference. Code is available at: https://github.com/yaoyz96/low-rank-cl.
研究の動機と目的
- 大規模プレトレーニングモデルを用いたパラメータ効率的継続学習(PECL)における重み正則化の活用を動機付ける。
- 低ランク適応フレームワーク内でElastic Weight Consolidation(EWC)を principled に適用する方法を提案する。
- 完全次元のフィッシャ情報を用いて共有された低ランク更新を規制する EWC-LoRA を開発する。
- 既存の低ランク CL 手法よりも安定性-可塑性のトレードオフと実用的効率を改善して示す。
提案手法
- 重みの更新を低ランク積 Delta W = AB として表現し、学習可能パラメータを制限する。
- 低ランク更新を完全次元空間で正則化し、全W空間で計算された対角フィッシャ情報行列を用いて、各タスクの部分空間ではなく全空間で正則化する。
- 全次元空間で W_t* のフィッシャ情報 F_t を推定し、タスク間で蓄積して F_t^{cum} を形成する。
- 各タスク後に学習済みの低ランク更新をバックボーンに組み込んでメモリをタスク数とともに一定に保つ。
- 視覚タスク(CIFAR-100、DomainNet、ImageNet-R、ImageNet-A)と言語タスク(T5-large、LLaMA-3.2)で EWC-LoRA を評価し、他の LoRA ベースおよび PECL 手法と比較する。

実験結果
リサーチクエスチョン
- RQ1パラメータ効率的継続学習(PTM ベース)において、重み正則化(EWC)を低ランク適応と効果的に統合できるか。
- RQ2低ランク更新を更新しつつ全次元空間でフィッシャ情報を推定することが、低ランク空間での素朴な正則化より安定性-可塑性のトレードオフを改善するか。
- RQ3多様なデータセットで、精度・安定性・可塑性・効率の観点から最新の PECL 手法と比較して EWC-LoRA はどの程度の性能を示すか。
主な発見
| Methods | CIFAR-100: A10 (↑) | CIFAR-100: Avg (↑) | DomainNet: A5 (↑) | DomainNet: Avg (↑) | ImageNet-R: A10 (↑) | ImageNet-R: Avg (↑) | ImageNet-A: A10 (↑) | ImageNet-A: Avg (↑) |
|---|---|---|---|---|---|---|---|---|
| EWC-LoRA | 87.91 | 92.27 | 73.46 | 79.58 | 72.86 | 78.95 | 59.89 | 68.33 |
- EWC-LoRA は複数のデータセットで vanilla LoRA より最終的な精度が高く、平均で 8.92% の改善を示す。
- 4つのデータセットにわたり、EWC-LoRA はしばしば最終的な精度が最高となり、安定性と可塑性も競争力が高く、タスク特化の低ランク手法を上回る。
- EWC-LoRA は安定性-可塑性のトレードオフが有利であり、単一の共有 LoRA モジュールと正則化のための対角フィッシャ情報しか保持しないためメモリ効率を保つ。
- 統一的な正則化強度(lambda = 1e7)を用いることで、データセット特異的な調整なしでも堅牢な性能を得られる。
- 言語タスクでは、T5-large および LLaMA-3.2-1B-Instruct で LO-RA ベースのベースラインと同等または優れた結果を提供する。
- アブレーション研究では、AB積による全次元 W 空間の正則化が、A および B の各成分正則化や事前計算された F_W を用いる方法よりも優れていることが示された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。