[논문 리뷰] RanPAC: Random Projections and Pre-trained Models for Continual Learning
RanPAC은 고정된 사전 학습 모델 특징과 클래스 프로토타입 출력 헤드 사이에 학습 없이 작동하는 랜덤 프로젝션(RP) 계층을 도입하여, 프로토타입 간의 상관관계를 줄이고 리허설 메모리 없이 Gram-행렬 기반 보정으로 지속적 학습을 향상시킨다.
Continual learning (CL) aims to incrementally learn different tasks (such as classification) in a non-stationary data stream without forgetting old ones. Most CL works focus on tackling catastrophic forgetting under a learning-from-scratch paradigm. However, with the increasing prominence of foundation models, pre-trained models equipped with informative representations have become available for various downstream requirements. Several CL methods based on pre-trained models have been explored, either utilizing pre-extracted features directly (which makes bridging distribution gaps challenging) or incorporating adaptors (which may be subject to forgetting). In this paper, we propose a concise and effective approach for CL with pre-trained models. Given that forgetting occurs during parameter updating, we contemplate an alternative approach that exploits training-free random projectors and class-prototype accumulation, which thus bypasses the issue. Specifically, we inject a frozen Random Projection layer with nonlinear activation between the pre-trained model's feature representations and output head, which captures interactions between features with expanded dimensionality, providing enhanced linear separability for class-prototype-based CL. We also demonstrate the importance of decorrelating the class-prototypes to reduce the distribution disparity when using pre-trained representations. These techniques prove to be effective and circumvent the problem of forgetting for both class- and domain-incremental continual learning. Compared to previous methods applied to pre-trained ViT-B/16 models, we reduce final error rates by between 20% and 62% on seven class-incremental benchmarks, despite not using any rehearsal memory. We conclude that the full potential of pre-trained models for simple, effective, and fast CL has not hitherto been fully tapped. Code is at github.com/RanPAC/RanPAC.
연구 동기 및 목표
- 학습 없이 랜덤 프로젝션이 사전 학습된 모델을 사용한 클래스-프로토타입 기반 지속적 학습을 개선할 수 있는지 탐색합니다.
- 클래스 프로토타입의 상관 제거가 작업 간 분포 변화(distribution shift)를 감소시킨다는 것을 보입니다.
- 매개변수 효율적 전달 학습(PETL) 및 첫 세션 적응과의 호환성을 입증합니다.
- 리허설 메모리 없이 클래스 증가형 및 도메인 증가형 벤치마크에서 성능을 평가합니다.
제안 방법
- 사전 학습된 특징 표현과 CP 기반 출력 헤드 사이에 비선형 활성화를 갖는 고정된 랜덤 프로젝션(RP) 계층을 삽입합니다.
- 그램 행렬 기반 보정과 능선 회귀를 사용하여 클래스 점수를 계산하고, 작업 간에 G와 C를 점진적으로 업데이트합니다.
- 클래스 프로토타입의 상관을 제거하여 클래스 간 상관관계를 줄이고 구분 능력을 향상시킵니다.
- RP를 첫 세션에서 학습된 후 고정된 PETL 방법과 결합하여 도메인 간 격차를 해소합니다.
- RP 가중치를 고정하고 최종 점수 계산에 닫힌 형태의 능선 유사 해를 사용하여 훈련 효율성을 유지합니다 (G + lambda I)^{-1} * C.
실험 결과
연구 질문
- RQ1고정된 난수 프로젝션 계층이 사전 학습 모델을 사용한 지속적 학습에서 클래스 프로토타입의 선형 분리가 향상됩니까?
- RQ2도메인 및 클래스로 증가하는 상황에서 CP 기반 CL의 보정 및 정확도에 클래스 프로토타입의 상관 제거가 어떤 영향을 미칩니까?
- RQ3RP와 PETL이 다양한 CL 벤치마크에서 공동 학습에 근접하거나 이를 능가하는 학습 없이 성능을 달성할 수 있습니까?
- RQ4RanPAC가 다양한 백본(ViT, ResNet, CLIP) 및 PETL 방법과 CL 시나리오 전반에 걸쳐 호환됩니까?
주요 결과
| 방법 | CIFAR100 | IN-R | IN-A | CUB | OB | VTAB | Cars |
|---|---|---|---|---|---|---|---|
| Joint linear probe | 87.9% | 72.0% | 56.6% | 88.7% | 78.5% | 86.7% | 51.7% |
| L2P | 84.6% | 72.4% | 42.5% | 65.2% | 64.7% | 77.1% | 38.2%* |
| DualPrompt | 84.1% | 71.0% | 45.4% | 68.5% | 65.5% | 81.2% | 40.1%* |
| CODA-Prompt | 86.3% | 75.5% | 44.5% | 79.5% | 68.7% | 87.4% | 43.2% |
| ADaM | 87.6% | 72.3% | 52.6% | 87.1% | 74.3% | 84.3% | 41.4% |
| Ours ( Algorithm 1 ) | 92.2% | 77.9% | 62.4% | 90.3% | 79.9% | 92.2% | 77.5% |
- RanPAC은 CP 기본선 대비 클래스-증가 벤치마크에서 에러율을 크게 감소시킵니다( PETL과 함께 11%–28%).
- ViT-B/16 모델에서 RanPAC은 다수의 클래스-증가 및 도메인-증가 데이터셋에서 이전 CP 방법들보다 리허설 없이 가장 높은 정확도를 달성합니다.
- 충분한 차원수(M)와 비선형을 갖춘 비선형 RP 계층을 사용하는 것은 클래스 구분성과 최종 정확도를 크게 향상시킵니다.
- 그램 기반 방식으로 클래스 프로토타입의 상관 제거가 클래스 간 상관관계를 감소시키고 CP를 공동으로 학습된 선형 프로브와 맞추며 보정을 향상시킵니다.
- RanPAC은 클래스-증가, 도메인-증가, 작업-무관 CL 시나리오 전반에 걸쳐 효과적이며 임의의 특징 벡터(ViT, ResNet, CLIP)와 호환됩니다.
- CPU집약적이거나 메모리 무거운 리허설 기반 방법과 비교하여, RanPAC는 과거 데이터를 보관하지 않고도 강한 성능을 달성합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.