[論文レビュー] Class-incremental Learning via Deep Model Consolidation
本稿では、元の学習データやモデルの再実行を必要とせず、未ラベルの補助データを用いて古くからのクラスと新しいクラスのための別々のモデルを統合する、深層モデル統合(DMC)という新しいクラスインクリメンタル学習手法を提案する。DMCは、二重 distillation 目的関数を用いることで、古くからのモデルと新しいモデルの知識を統合し、CIFAR-100、CUB-200、PASCAL VOC 2007で最先端の性能を達成する。一方で、深刻な忘れの問題を顕著に軽減しながら、モデルの効率性を維持する。
Deep neural networks (DNNs) often suffer from "catastrophic forgetting" during incremental learning (IL) --- an abrupt degradation of performance on the original set of classes when the training objective is adapted to a newly added set of classes. Existing IL approaches tend to produce a model that is biased towards either the old classes or new classes, unless with the help of exemplars of the old data. To address this issue, we propose a class-incremental learning paradigm called Deep Model Consolidation (DMC), which works well even when the original training data is not available. The idea is to first train a separate model only for the new classes, and then combine the two individual models trained on data of two distinct set of classes (old classes and new classes) via a novel double distillation training objective. The two existing models are consolidated by exploiting publicly available unlabeled auxiliary data. This overcomes the potential difficulties due to the unavailability of original training data. Compared to the state-of-the-art techniques, DMC demonstrates significantly better performance in image classification (CIFAR-100 and CUB-200) and object detection (PASCAL VOC 2007) in the single-headed IL setting.
研究の動機と目的
- 元の学習データが入手不可である状況下で、深層ニューラルネットワークにおけるインクリメンタル学習における深刻な忘れの問題を解決すること。
- レガシーデータを保存せず、エグジンプラ(例示例)に依存せず、古くからのクラスおよび新しいクラスの両方で高い精度を維持する手法を開発すること。
- インクリメンタルアップデート後に安定したモデルサイズを維持できる、効率的でシングルヘッドの分類を可能にすること。
- 正則化に基づく手法に内在する、非対称な監視により古くからのクラスまたは新しいクラスに偏るという問題を克服すること。
- 公開済みの未ラベルデータを活用し、別々のクラス集合で学習されたモデル間で偏りのない知識移行を実現すること。
提案手法
- ラベル付きデータを用いて新しいクラス専用に学習した別個のモデルを訓練する一方で、古くからのクラス用に事前学習済みのモデルを保持する。
- 古くからのモデルと新しいモデルの両方から知識を抽出する、新しい二重 distillation 目的関数を用いて、二つのモデルを統合する。
- 一般化された未ラベルの補助データ(例:MS COCO から得たデータ)を活用し、統合プロセス中に多様で転送可能な表現を提供する。
- 補助データがターゲットデータと同一のクラスラベルや分布を共有する必要はなく、多様性と関連性のみを満たせばよい。
- 対称的な distillation を適用する:学生モデルは、両方の教師モデルから同時に学習することで、古くからのクラスや新しいクラスに偏らない。
- 対称的かつアーキテクチャに依存しないフレームワークを採用し、ResNet-34 と ResNet-50 といった異なるバックボーンを持つモデルの統合を可能にする。
実験結果
リサーチクエスチョン
- RQ1元の学習データにアクセスできない状況下で、クラスインクリメンタル学習手法が古くからのクラスと新しいクラスの両方で高い性能を達成できるか。
- RQ2独立して訓練された二つのモデルからの二重 distillation は、標準的な distillation と比較して、一般化性能の向上と忘れの軽減にどのように寄与するか。
- RQ3未ラベルの補助データの分布が、統合モデルの性能にどの程度影響を及えるか。
- RQ4異なるバックボーンアーキテクチャに適用した場合、性能の低下が生じないか。
- RQ5エグジンプラに依存しない既存の手法と比較して、精度、モデル効率性、拡張性の観点から本フレームワークは優れているか。
主な発見
- DMC は、19+1 クラスのインクリメンタル学習において、PASCAL VOC 2007 で 70.8% の mAP を達成し、先行するエグジンプラ非依存手法を上回った。
- 19+1 物体検出実験では、すべてのクラスの平均 mAP が 68.47% に達し、標準偏差はわずか 1.75% であった。
- PASCAL VOC に関連する画像をすべて除外した厳密な補助データ設定(DMC 専用補助データ)でも、DMC はすべてのクラスで先行する SOTA 手法 [51] を上回った。
- 優れた性能を発揮しているにもかかわらず、推論時間とモデル複雑度は、Inference twice ベースラインの半分に抑えることができた。
- 古くからのクラスと新しいクラスの両方で ResNet-50 を使用した場合、mAP は 69.9% に低下したが、新しいクラスにのみ ResNet-34 を使用した場合、mAP は 70.8% に上昇した。これは、小規模データセットで深いモデルを用いることで過学習のリスクが高まることを示している。
- 二重 distillation 機構は、正則化に基づくアプローチで見られる古くからのクラスや新しいクラスに偏る問題を効果的に回避し、知識移行のバランスを保っている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。