[論文レビュー] RMM: Reinforced Memory Management for Class-Incremental Learning
RMMは階層的強化学習方針を導入し、クラス逐次学習におけるメモリを動的に割り当て、リプレイベースのベースラインをCIFAR-100、ImageNet-Subset、ImageNet-Fullの全てで改善します。
Class-Incremental Learning (CIL) [40] trains classifiers under a strict memory budget: in each incremental phase, learning is done for new data, most of which is abandoned to free space for the next phase. The preserved data are exemplars used for replaying. However, existing methods use a static and ad hoc strategy for memory allocation, which is often sub-optimal. In this work, we propose a dynamic memory management strategy that is optimized for the incremental phases and different object classes. We call our method reinforced memory management (RMM), leveraging reinforcement learning. RMM training is not naturally compatible with CIL as the past, and future data are strictly non-accessible during the incremental phases. We solve this by training the policy function of RMM on pseudo CIL tasks, e.g., the tasks built on the data of the 0-th phase, and then applying it to target tasks. RMM propagates two levels of actions: Level-1 determines how to split the memory between old and new classes, and Level-2 allocates memory for each specific class. In essence, it is an optimizable and general method for memory management that can be used in any replaying-based CIL method. For evaluation, we plug RMM into two top-performing baselines (LUCIR+AANets and POD+AANets [30]) and conduct experiments on three benchmarks (CIFAR-100, ImageNet-Subset, and ImageNet-Full). Our results show clear improvements, e.g., boosting POD+AANets by 3.6%, 4.4%, and 1.9% in the 25-Phase settings of the above benchmarks, respectively.
研究の動機と目的
- 厳密なメモリ予算の下でクラス逐次学習(CIL)におけるメモリ割り当ての改善を動機づけ、忘却を緩和する。
- 古いサンプルと新しいデータとの間でメモリを最適に分割し、その後クラスごとにメモリを割り当てる階層型強化学習方針を提案する。
- ターゲットCILタスクへ適用しつつ、疑似CILタスクで訓練することにより転移可能な方針学習を可能にする。
- RMMが複数のベンチマークでトップベースライン(LUCIR+AANets、POD+AANets)を一貫して強化することを示す。
提案手法
- 2レベルの階層ポリシーを導入する:レベル-1はエグザンプル(古いデータ)と新しいデータの間でメモリを割り当て、レベル-2はエグザンプルメモリを古いクラス間で訓練エントロピーに条件づけて割り当てる。
- フェーズ i における状態 s_i を (C_i / sum_{t<=i} C_t, |M_old| / |M|) と定義し、転送性とフェーズの識別性を保証する。
- レベル-1のアクション a_i^{[1]} は最初のフェーズのエグザンプルメモリの比と、後続フェーズにおける増分変化を測定し、実現可能なメモリ分割を維持するための境界を設ける。
- レベル-2のアクション a_i^{[2]} は古いエグザンプルメモリを高エントロピークラス群と低エントロピークラス群の間で分配する(2つのグループが有効であるとされる)。
- 移動平均ベースラインを用いたREINFORCEに基づくポリシー最適化を用い、全フェーズにわたる検証精度の累積を最大化する(R = sum r_i)。
- 利用可能なデータから生成された疑似CILタスク(例:D_0)でポリシー関数を訓練し、転移可能なポリシーの学習のために過去/未来データへのアクセスを可能にする。
実験結果
リサーチクエスチョン
- RQ1階層型RLポリシーは、CILにおける古いデータと新しいデータの各フェーズごとの最適なメモリ割り当ておよびクラスごとのメモリ分布を学習できるか。
- RQ2疑似CILタスクの訓練は、実際の追加フェーズで過去/未来データへアクセスせずにターゲットCILタスクへの転移可能なポリシー学習を可能にするか。
- RQ3クラス特異的メモリ割り当てとエントロピーベースのグルーピングは、ベンチマークやフェーズ数を問わず静的なメモリ分割と比べてどの程度性能を向上させるか?
- RQ4RMMはLUCIR+AANetsやPOD+AANetsなど既存のリプレイベースCILのベースラインと適合し、有益か?
- RQ5データセット間でポリシー関数を転移させることがCILの性能にどの程度影響するか?
主な発見
- RMMはベンチマークとフェーズ数を問わず、二つの強力なベースライン(LUCIR+AANetsとPOD+AANets)を一貫して改善する。
- RMMを組み込んだPOD+AANetsは全体的な最高性能を達成し、ベースラインより3.6%(CIFAR-100, N=25)および4.4%(ImageNet-Subset, N=25)の向上を示す。
- 難易度が高く長期的な設定(N=25)での性能向上は、フェーズ数が小さい(N=5)場合より顕著である。
- 階層型RL(2段階)は単一レベルRLを上回り、データセット全体で平均精度および最後のフェーズの精度の向上を示す。
- 別データセットからのポリシー転移(跨タスク)は、ターゲットタスクRL訓練の必要性を減らし、タスク内RLと同程度の利得をもたらす。
- アブレーション研究は、RMM下で古いサンプルと新しいデータの間でメモリ割り当てがよりバランスの取れたものとなり、データの不均衡問題に対処することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。