QUICK REVIEW

[논문 리뷰] RMM: Reinforced Memory Management for Class-Incremental Learning

Yaoyao Liu, Bernt Schiele|arXiv (Cornell University)|2023. 01. 14.

Domain Adaptation and Few-Shot Learning참고 문헌 28인용 수 36

한 줄 요약

RMM은 클래스 점증 학습에서 기억을 동적으로 할당하기 위한 계층적 강화 학습 정책을 제시하여 CIFAR-100, ImageNet-Subset, ImageNet-Full에서 재생 기반 베이스라인을 개선합니다.

ABSTRACT

Class-Incremental Learning (CIL) [40] trains classifiers under a strict memory budget: in each incremental phase, learning is done for new data, most of which is abandoned to free space for the next phase. The preserved data are exemplars used for replaying. However, existing methods use a static and ad hoc strategy for memory allocation, which is often sub-optimal. In this work, we propose a dynamic memory management strategy that is optimized for the incremental phases and different object classes. We call our method reinforced memory management (RMM), leveraging reinforcement learning. RMM training is not naturally compatible with CIL as the past, and future data are strictly non-accessible during the incremental phases. We solve this by training the policy function of RMM on pseudo CIL tasks, e.g., the tasks built on the data of the 0-th phase, and then applying it to target tasks. RMM propagates two levels of actions: Level-1 determines how to split the memory between old and new classes, and Level-2 allocates memory for each specific class. In essence, it is an optimizable and general method for memory management that can be used in any replaying-based CIL method. For evaluation, we plug RMM into two top-performing baselines (LUCIR+AANets and POD+AANets [30]) and conduct experiments on three benchmarks (CIFAR-100, ImageNet-Subset, and ImageNet-Full). Our results show clear improvements, e.g., boosting POD+AANets by 3.6%, 4.4%, and 1.9% in the 25-Phase settings of the above benchmarks, respectively.

연구 동기 및 목표

strict memory budgets 하에서 잊음을 완화하기 위한 클래스 점증 학습(CIL)에서 기억 할당 개선 모티베이션.
old exemplars와 new data 사이의 최적 분할 및 각 클래스별 기억 할당을 위한 계층적 강화 학습 정책을 제안합니다.
학습 가능한 이전/미래 데이터 접근을 허용하는 가짜 CIL 태스크에서 정책 학습을 수행하여 양도 가능한 정책 학습을 가능하게 합니다.
여러 벤치마크에서 RMM이 상위 베이스라인(LUCIR+AANets, POD+AANets)을 일관되게 향상시킵니다.

제안 방법

Level-1이 exemplars(옛 데이터)와 새로운 데이터 간의 기억을 할당하는 계층적 정책의 2단계 도입; Level-2가 training entropy에 조건부로 옛 클래스 간의 exemplars 기억을 분배합니다(두 그룹이 효과적임이 발견됩니다).
Phase i에서 상태 s_i를 (C_i / sum_{t<=i} C_t, |M_old| / |M|)로 정의하여 이전/미래 데이터 접근 가능성과 phase-구분 가능성을 보장합니다.
Level-1의 행동 a_i^{[1]}은 첫 단계의 exemplars 기억 비율과 이후 단계에서의 증가 변화를 측정하며, 실행 가능한 기억 분할을 유지하는 경계가 있습니다.
Level-2의 행동 a_i^{[2]}은 오래된 exemplars 기억을 높은 엔트로피 클래스 그룹과 낮은 엔트로피 클래스 그룹 간에 분배합니다(두 그룹이 효과적인 것으로 밝혀짐).
R = sum r_i인 모든 단계에서 유효성 검증 정확도의 누적 최대화를 목표로 이동 평균 기반 베이스라인과 함께 REINFORCE 기반 정책 최적화를 사용합니다.
학습 가능한 정책을 가능하게 하기 위해 사용 가능한 데이터로부터 생성된 가짜 CIL 태스크(D_0 등)에서 정책 함수를 학습하여 과거/미래 데이터 접근 없이도 대상 CIL 태스크에서의 transfer 가능성을 확보합니다.

실험 결과

연구 질문

RQ1계층적 RL 정책이 CIL에서 old vs. new 데이터 간의 per-phase 기억 할당 및 per-class 기억 분배를 최적화하여 학습할 수 있는가?
RQ2가짜 CIL 태스크 학습이 실제 증가 단계에서 과거/미래 데이터에 접근하지 않고도 대상 CIL 태스크로 정책 전이를 가능하게 하는가?
RQ3클래스 특이적 기억 할당과 엔트로피 기반 그룹화가 정적 기억 분할 대비 벤치마크 및 단계 수에 걸쳐 성능을 얼마나 향상시키는가?
RQ4RMM이 LUCIR+AANets, POD+AANets 같은 기존 재생 기반 CIL 베이스라인과 호환되고 이익을 주는가?
RQ5데이터 세트 간 정책 함수의 전이가 CIL 성능에 어느 정도 영향을 주는가?

주요 결과

RMM은 벤치마크와 단계 수에 걸쳐 두 강력한 베이스라인(LUCIR+AANets 및 POD+AANets)을 일관되게 개선합니다.
RMM을 적용한 POD+AANets가 최상의 전반적 성능을 달성하며, 베이스라인 대비 CIFAR-100에서 3.6% 향상(N=25), ImageNet-Subset에서 4.4% 향상(N=25)을 보입니다.
성능 향상은 더 어렵고 긴 시계열 설정(N=25)에서 더 뚜렷하며, 더 작은 단계 수(N=5)에서는 그렇지 않은 경향이 있습니다.
계층적 RL(2단계)이 단일 레벨 RL보다 우수하여 데이터셋 전반에서 평균 및 마지막 단계 정확도에서 이점을 보입니다.
다른 데이터셋에서의 정책 전달(교차 태스크)은 대상 태스크 RL 학습에 대한 필요를 줄이며 목표 태스크 RL 학습과 유사한 이익을 제공합니다.
적분 연구에서 RMM 하에서 기억 할당이 OLD EXEMPLARS와 NEW DATA 간에 더 균형 있게 이루어져 데이터 불균형 문제를 해소하는 경향이 나타납니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.