[論文レビュー] FOSTER: Feature Boosting and Compression for Class-Incremental Learning
FOSTER は residual-fitting モジュールを用いた新しいクラスの学習を強化し、拡張したモデルを蒸留で単一のバックボーンに圧縮する2段階学習パラダイムを導入しており、CIFAR-100 および ImageNet-100/1000 におけるクラスインクリメンタル学習で最先端の結果を達成します。
The ability to learn new concepts continually is necessary in this ever-changing world. However, deep neural networks suffer from catastrophic forgetting when learning new categories. Many works have been proposed to alleviate this phenomenon, whereas most of them either fall into the stability-plasticity dilemma or take too much computation or storage overhead. Inspired by the gradient boosting algorithm to gradually fit the residuals between the target model and the previous ensemble model, we propose a novel two-stage learning paradigm FOSTER, empowering the model to learn new categories adaptively. Specifically, we first dynamically expand new modules to fit the residuals between the target and the output of the original model. Next, we remove redundant parameters and feature dimensions through an effective distillation strategy to maintain the single backbone model. We validate our method FOSTER on CIFAR-100 and ImageNet-100/1000 under different settings. Experimental results show that our method achieves state-of-the-art performance. Code is available at: https://github.com/G-U-N/ECCV22-FOSTER.
研究の動機と目的
- 継続的/インクリメンタル学習を動機付け、深層ネットワークでの破局的忘却に対処する。
- 特徴強化とその後の圧縮を組み合わせて単一バックボーンを保持する2段階の FOSTER フレームワークを提案する。
- 古いモデルから新しいモデルへの残差を適合させつつ、蒸留によって複雑さを制御する勾配ブ boosting の概念を活用する。
- CIFAR-100 と ImageNet-100/1000 において複数のインクリメンタル設定で最先端の性能を示す。
提案手法
- 2段階学習: (1) frozen な古いモデルに付加された新しい residual-fitting モジュールを拡張してブースト; (2) 蒸留を介して冗長なパラメータと次元を削減して圧縮。
- F_t を frozen base F_{t-1} と trainable boosting モジュール F_t(phi_t と W_t を含む)に分解し、拡張された分類器 W_t と連結された特徴 Phi_t を形成する。
- KL-ダイバージェンスベースの目的関数と logits アライメントを用いて古いクラスと新しいクラスのバランスを取り、古い概念の学習を促す(L_KD, L_FE, L_LA)。
- Logits Alignment による旧クラスと新クラスのロジットのスケーリング、Feature Enhancement による新しい特徴の学習による全ての見られたカテゴリの分類、Balanced Distillation による不均衡データのための蒸留を含む。
- Knowledge distillation による Feature の単一バックボーンへの圧縮、Balanced Distillation (BKD) および unlabeled-data distillation を用いて冗長な特徴を剪定しつつ性能を維持する。
実験結果
リサーチクエスチョン
- RQ1グラデーションブースティング風の残差学習機がパラメータの過剰な増大を伴わずに新しいクラスの可塑性を改善できるか?
- RQ2蒸留による拡張の単一バックボーンへの圧縮が性能を保持し、長期的なインクリメンタル学習を可能にするか?
- RQ3キャリブレーション技術(logits alignment、feature enhancement、balanced distillation)がインクリメンタル更新中の旧クラスと新クラス間のバイアスをいかに緩和するか?
- RQ4CIFAR-100 および ImageNet-100/1000 の実験は、さまざまなインクリメンタル設定で最先端の結果を示すか?
主な発見
| Methods | Average incremental accuracy (%) | CIFAR-100 B0 10 steps | CIFAR-100 B0 20 steps | CIFAR-100 B50 10 steps | CIFAR-100 B50 25 steps | ImageNet-1000? | Notes |
|---|---|---|---|---|---|---|---|
| Bound | 80.40 | 80.41 | 81.49 | 81.74 | - | - | |
| iCaRL | 64.42 | 63.50 | 53.78 | 50.60 | - | - | |
| BiC | 65.08 | 62.37 | 53.21 | 48.96 | - | - | |
| WA | 67.08 | 64.64 | 57.57 | 54.10 | - | - | |
| COIL | 65.48 | 62.98 | 59.96 | - | - | - | |
| PODNet | 55.22 | 47.87 | 63.19 | 60.72 | - | - | |
| DER | 69.74 | 67.98 | 66.36 | - | - | - | |
| Ours (FOSTER) | 72.90 | 70.65 | 67.95 | 63.83 | - | - | |
| Improvement | (+3.06) | (+2.67) | (+1.59) | (+3.11) | - | - | |
| ImageNet-100 (B0) | - | - | - | - | - | - | |
| Ours (FOSTER) - ImageNet-100/1000 | - | - | - | - | 68.34 | - |
- FOSTER は複数の設定(例: base 0/50 でのステップ数の異なる設定)において CIFAR-100 の平均インクリメンタル精度で従来手法よりも最先端の結果を達成。
- CIFAR-100 では、長期および大規模ステップのインクリメンタル設定で従来法を最大で 3.11 ポイント上回る。
- ImageNet-100/1000 では、ほとんどの設定で競合法より一貫して優れた結果を示し、いくつかのステップ構成で顕著な向上。
- 圧縮段階はディストリビューションに基づく圧縮戦略のおかげで性能の低下を最小限に抑えつつ単一バックボーンへ効果的に縮小。
- アブレーション研究は logits alignment、feature enhancement、balanced distillation のそれぞれが性能に意味のある寄与をすることを示し、LOGITS ALIGNMENT は他の選択肢より顕著な利点を提供。
- Grad-CAM の可視化は、ブーストされたモジュールが frozen base よりも広範で包括的な特徴領域を学習していることを示し、 residual-fitting の直感を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。