[논문 리뷰] Revisiting Weight Regularization for Low-Rank Continual Learning
이 논문은 대형 사전학습 모델에서의 저랭크 연속 학습을 위한 가중치 규제 기반 방법인 EWC-LoRA를 제시하여, 더 많은 작업을 다루더라도 메모리를 늘리지 않고 안정성과 가소성(유연성) 간의 우수한 트레이드오프를 달성한다.
Continual Learning (CL) with large-scale pre-trained models (PTMs) has recently gained wide attention, shifting the focus from training from scratch to continually adapting PTMs. This has given rise to a promising paradigm: parameter-efficient continual learning (PECL), where task interference is typically mitigated by assigning a task-specific module during training, such as low-rank adapters. However, weight regularization techniques, such as Elastic Weight Consolidation (EWC)-a key strategy in CL-remain underexplored in this new paradigm. In this paper, we revisit weight regularization in low-rank CL as a new perspective for mitigating task interference in PECL. Unlike existing low-rank CL methods, we mitigate task interference by regularizing a shared low-rank update through EWC, thereby keeping the storage requirement and inference costs constant regardless of the number of tasks. Our proposed method EWC-LoRA leverages a low-rank representation to estimate parameter importance over the full-dimensional space. This design offers a practical, computational- and memory-efficient solution for CL with PTMs, and provides insights that may inform the broader application of regularization techniques within PECL. Extensive experiments on various benchmarks demonstrate the effectiveness of EWC-LoRA, achieving a stability-plasticity trade-off superior to existing low-rank CL approaches. These results indicate that, even under low-rank parameterizations, weight regularization remains an effective mechanism for mitigating task interference. Code is available at: https://github.com/yaoyz96/low-rank-cl.
연구 동기 및 목표
- 파라미터 효율적 지속 학습(PECL)에서 대형 사전학습된 모델과 함께 가중치 규제를 사용하는 동기를 제시한다.
- 저랭크 적응 프레임워크 내에서 Elastic Weight Consolidation(EWC)을 원리적으로 적용하는 방법을 제안한다.
- 전체 차원 피셔 정보(full-dimensional Fisher information)를 사용하여 공유 저랭크 업데이트를 규제하기 위해 EWC-LoRA를 개발한다.
- 기존의 저랭크 CL 방법에 비해 개선된 안정성-가소성 트레이드오프와 실용적 효율성을 보여준다.
제안 방법
- 가중치 업데이트를 저랭크 곱 Delta W = AB로 표현하여 학습 가능한 매개변수를 제한한다.
- 전용 작업 하위공간이 아닌 전체 W 공간에서 계산된 대각 피셔 정보 행렬을 사용하여 저랭크 업데이트를 전체 차원 공간에서 규제한다.
- W_t*에 대한 전체 차원 공간의 피셔 정보를 추정하고 이를 작업 간 누적하여 F_t^{cum}을 형성한다.
- 각 작업 이후 백본에 학습된 저랭크 업데이트를 병합하여 작업 수에 따라 메모리가 일정하게 유지되도록 한다.
- 비전(CIFAR-100, DomainNet, ImageNet-R, ImageNet-A)과 언어(T5-large, LLaMA-3.2) 벤치마크 모두에서 EWC-LoRA를 평가하고, 다른 LoRA 기반 및 PECL 방법과 비교한다.

실험 결과
연구 질문
- RQ1가중치 규제(EWC)가 PTM 기반 지속 학습에서 저랭크 적응과 효과적으로 통합될 수 있는가?
- RQ2저랭크 업데이트를 갱신하는 동안 전체 매개변수 공간에서 피셔 정보를 추정하는 것이 저랭크 공간의 naive 규제보다 더 나은 안정성-가소성 트레이드오프를 낳는가?
- RQ3다양한 데이터셋에서 정확도, 안정성, 가소성 및 효율성 측면에서 EWC-LoRA가 최첨단 PECL 방법과 어떻게 비교되는가?
주요 결과
| 방법 | CIFAR-100: A10 (↑) | CIFAR-100: Avg (↑) | DomainNet: A5 (↑) | DomainNet: Avg (↑) | ImageNet-R: A10 (↑) | ImageNet-R: Avg (↑) | ImageNet-A: A10 (↑) | ImageNet-A: Avg (↑) |
|---|---|---|---|---|---|---|---|---|
| EWC-LoRA | 87.91 | 92.27 | 73.46 | 79.58 | 72.86 | 78.95 | 59.89 | 68.33 |
- EWC-LoRA는 다중 데이터셋에서 vanilla LoRA보다 최종 정확도가 더 높았으며 평균 8.92%의 개선을 보였다.
- 네 가지 데이터셋에 걸쳐 EWC-LoRA는 종종 최종 정확도에서 최고를 달성하고 안정성 및 가소성에서도 경쟁력이 있으며, 작업별 저랭크 방법을 능가하는 경우가 많다.
- EWC-LoRA는 공유된 하나의 LoRA 모듈을 사용하고 규제에 대하여 대각 피셔 정보만 저장하므로 안정성-가소성 트레이드오프를 우호적으로 보이며 메모리 효율성을 유지한다.
- 일관된 규제 강도(lambda = 1e7)를 사용하면 데이터셋별 튜닝 없이도 강건한 성능을 얻을 수 있다.
- 언어 과제에서 EWC-LoRA는 T5-large 및 LLaMA-3.2-1B-Instruct로 검증했을 때 LO-RA 기반 기준선과 비교해 유사하거나 우수한 결과를 제공한다.
- 제거 연구에서 AB 곱을 통한 전체 차원 W 공간의 규제가 A 및 B의 구성 요소별 규제나 미리 계산된 F_W 사용보다 우수하다는 것을 보였다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.