[논문 리뷰] A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning
이 논문은 공정한 메모리 예산 비교로 메모리 효율적인 CIL 방법을 재평가하고, 일반화된 블록을 공유하면서 새로운 작업에 특화된 블록을 추가하는 메모리 효율적 확장 모델 Memo를 제안합니다. Memo는 공정한 메모리 예산에서 종종 baselines보다 우수합니다.
Real-world applications require the classification model to adapt to new classes without forgetting old ones. Correspondingly, Class-Incremental Learning (CIL) aims to train a model with limited memory size to meet this requirement. Typical CIL methods tend to save representative exemplars from former classes to resist forgetting, while recent works find that storing models from history can substantially boost the performance. However, the stored models are not counted into the memory budget, which implicitly results in unfair comparisons. We find that when counting the model size into the total budget and comparing methods with aligned memory size, saving models do not consistently work, especially for the case with limited memory budgets. As a result, we need to holistically evaluate different CIL methods at different memory scales and simultaneously consider accuracy and memory size for measurement. On the other hand, we dive deeply into the construction of the memory buffer for memory efficiency. By analyzing the effect of different layers in the network, we find that shallow and deep layers have different characteristics in CIL. Motivated by this, we propose a simple yet effective baseline, denoted as MEMO for Memory-efficient Expandable MOdel. MEMO extends specialized layers based on the shared generalized representations, efficiently extracting diverse representations with modest cost and maintaining representative exemplars. Extensive experiments on benchmark datasets validate MEMO's competitive performance. Code is available at: https://github.com/wangkiw/ICLR23-MEMO
연구 동기 및 목표
- 정확도와 메모리 비용(샘플과 모델)을 모두 고려하여 CIL 방법의 공정한 평가를 촉진한다.
- 다양한 네트워크 레이어가 CIL에 어떻게 기여하는지 분석하고 모든 레이어가 지속 학습에 동등하게 유용한지 여부를 식별한다.
- 일반화된 블록을 공유하고 새 작업을 위한 특수화된 블록을 추가해 성능과 메모리의 균형을 맞춘 Memo를 제안한다.
- 표준 CIL 벤치마크(CIFAR100, ImageNet100)에서 Memo의 메모리 인식 성능 향상을 입증한다.
제안 방법
- 공정한 비교를 가능하게 하려면 예제 기반(CIL) 방법과 모델 기반 CIL 방법 간 메모리 예산을 정렬하는 것을 제안한다.
- 얕은 계층이 더 일반적이고 깊은 계층이 CIL에서 더 작업 특이적임을 보이기 위해 계층별 그래디언트, 시프트, 표현 유사성을 분석한다.
- Memo를 소개하고 일반화된 블록(공유)과 특화된 블록(작업 특이)을 분해하며, 새로운 작업에 대해서는 특화된 블록만 학습하고 일반화된 블록은 재사용한다.
- 증분 학습(Eq. 3)에 대해 공유된 일반화 표현으로 특화된 블록을 사용하는 손실 형식을 도출한다.
- AUC(성능-메모리 곡선 아래 면적) 및 APM(모델 크기당 정확도) 같은 메모리 인식 성능 지표를 평가하여 메서드를 메모리 예산 전반에서 평가한다.
실험 결과
연구 질문
- RQ1다양한 CIL 방법을 메모리 예산이 달라질 때 어떻게 공정하게 비교해야 하는가?
- RQ2모든 네트워크 레이어가 CIL에 동일하게 기여하는가, 아니면 일반화된 계층을 공유하고 특화된 계층을 추가하는 방식이 메모리 효율을 개선하는가?
- RQ3Memo와 같은 메모리 효율적 아키텍처가 공정한 메모리 예산 하에서 예제 기반 및 모델 기반 기법보다 경쟁력 있거나 우수한 성능을 달성할 수 있는가?
- RQ4메모리 인식 성능 지표가 예산 전반에 걸쳐 CIL 능력을 가장 잘 포착하는가?
주요 결과
| 모델 | AUC-A | AUC-L | APM-S | APM-E |
|---|---|---|---|---|
| CIFAR100 - Replay | 10.49 | 8.02 | 7.68 | 2.97 |
| CIFAR100 - iCaRL | 10.81 | 8.64 | 8.32 | 3.00 |
| CIFAR100 - WA | 10.80 | 8.92 | 8.57 | 2.95 |
| CIFAR100 - DER | 10.74 | 8.95 | 7.05 | 2.97 |
| CIFAR100 - Memo | 10.85 | 9.03 | 7.18 | 3.06 |
| ImageNet100 - Replay | 553.6 | 470.1 | 0.137 | 5.2e-2 |
| ImageNet100 - iCaRL | 607.1 | 527.5 | 0.164 | 5.4e-2 |
| ImageNet100 - WA | 666.0 | 581.7 | 0.195 | 5.8e-2 |
| ImageNet100 - DER | 699.0 | 639.1 | 0.192 | 5.8e-2 |
| ImageNet100 - Memo | 713.0 | 654.6 | 0.196 | 6.1e-2 |
- 공정한 메모리 예산 비교는 대규모 예산에서 모델 기반 방법의 개선을 가능하게 하지만 예산이 타이트할 때 항상 우수하지는 않다.
- Memo는 공정한 비교하에 여러 예산과 데이터셋에서 종종 최첨단 또는 경쟁력 있는 결과를 얻는다.
- 얕은(일반화된) 계층은 작업 간에 안정적인 경향이 있고, 깊은(특수화된) 계층은 더 많이 변하고 점진적 확장에서 이점을 얻는다.
- 일반화된 블록을 공유하고 각 작업당 특화된 블록을 추가하면 일반화된 용량을 절감하고 추가 샘플을 얻어 더 나은 메모리 효율을 낼 수 있다.
- 메모리 인식 지표(AUC, AUC-L, APM-S, APM-E)는 CIFAR100과 ImageNet100 설정에서 Memo의 이점을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.