QUICK REVIEW

[論文レビュー] M2KD: Multi-model and Multi-level Knowledge Distillation for Incremental Learning

Peng Zhou, Long Mai|arXiv (Cornell University)|Apr 3, 2019

Domain Adaptation and Few-Shot Learning参考文献 37被引用数 45

ひとこと要約

本論文は多-model多-level知識蒸留と剪定によるモデル再構成を用いて、 exemplar-free および exemplar-based 増分学習における忘却を緩和する M2KD を提案する。

ABSTRACT

Incremental learning targets at achieving good performance on new categories without forgetting old ones. Knowledge distillation has been shown critical in preserving the performance on old classes. Conventional methods, however, sequentially distill knowledge only from the last model, leading to performance degradation on the old classes in later incremental learning steps. In this paper, we propose a multi-model and multi-level knowledge distillation strategy. Instead of sequentially distilling knowledge only from the last model, we directly leverage all previous model snapshots. In addition, we incorporate an auxiliary distillation to further preserve knowledge encoded at the intermediate feature levels. To make the model more memory efficient, we adapt mask based pruning to reconstruct all previous models with a small memory footprint. Experiments on standard incremental learning benchmarks show that our method preserves the knowledge on old classes better and improves the overall performance over standard distillation techniques.

研究の動機と目的

増分学習におけるデータ全体アクセスなしでの壊滅的 forgetting を防ぐ
penultimate モデルだけでなく、これまでの全てのモデルスナップショットから蒸留して古い知識を保持する
補助蒸留を介して中間特徴を活用し知識の保持を強化
マスクベース剪定で過去のモデルを再構成することでメモリ効率を向上
exemplar-free 設定で最先端の性能を示し、 exemplarを用いた場合にも強力な結果

提案手法

現在のモデル出力を全ての過去のモデルスナップショットの出力と整合させる多-model 蒸留損失を導入
中間特徴表現を保持する補助蒸留損失を追加
過去のモデルの必須パラメータだけを再構成・保存するためにマスクベース剪定を用い、即席のモデル再構成を可能にする
多-model蒸留と補助蒸留を総損失 L_total = L_MMD + lambda L_AD に統合
過去のモデルから蒸留しつつ現在データに対して標準的クロスエントロピーでバックプロパゲーション
バックボーンに依存しない枠組みで exemplar-free および exemplar-based 増分学習に適合

実験結果

リサーチクエスチョン

RQ1全ての過去のモデルスナップショットからの蒸留は、逐次的な penultimate-model 蒸留よりも古い知識をより良く保持するのか？
RQ2中間特徴の補助蒸留は最終的なロジット蒸留を超えて忘却をさらに緩和するのか？
RQ3マスクベース剪定は高い性能を犠牲にすることなく過去のモデルを低メモリオーバヘッドで効果的に再構成できるのか？
RQ4提案手法 M2KD は最先端の exemplar-free および exemplar-based 増分法と比較して競合力があるのか、あるいは優れているのか？

主な発見

M2KD は exemplar-free 増分学習において CIFAR-100 および iILSVRC-small で最先端の性能を達成する
剪定ベースの再構成により過去のモデル蒸留をメモリ効率良く実現し、非剪定バリアントと同程度の精度を維持
補助蒸留は最終ロジットだけでなく中間特徴統計を保持することで保持を改善
exemplar-based 設定では exemplar データを組み合わせることで精度がさらに向上し、従来の exemplar-based 手法を上回る
手法はバッチサイズ5・10・20クラス毎のステップでスケールし、剪定比下でも堅牢な性能を維持
Memory cost の削減は iCaRL のような exemplar-based アプローチと比較して大幅でありつつ精度は競争力を維持

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。