Skip to main content
QUICK REVIEW

[论文解读] Class-incremental Learning via Deep Model Consolidation

Junting Zhang, Jie Zhang|arXiv (Cornell University)|Mar 19, 2019
Domain Adaptation and Few-Shot Learning参考文献 62被引用 29
一句话总结

本文提出深度模型整合(DMC),一种类增量学习方法,通过新颖的双重蒸馏目标,利用无标签辅助数据将旧类和新类的独立模型进行整合。DMC 在 CIFAR-100、CUB-200 和 PASCAL VOC 2007 上实现最先进性能,无需访问原始训练数据或模型回放,显著减少灾难性遗忘的同时保持模型效率。

ABSTRACT

Deep neural networks (DNNs) often suffer from "catastrophic forgetting" during incremental learning (IL) --- an abrupt degradation of performance on the original set of classes when the training objective is adapted to a newly added set of classes. Existing IL approaches tend to produce a model that is biased towards either the old classes or new classes, unless with the help of exemplars of the old data. To address this issue, we propose a class-incremental learning paradigm called Deep Model Consolidation (DMC), which works well even when the original training data is not available. The idea is to first train a separate model only for the new classes, and then combine the two individual models trained on data of two distinct set of classes (old classes and new classes) via a novel double distillation training objective. The two existing models are consolidated by exploiting publicly available unlabeled auxiliary data. This overcomes the potential difficulties due to the unavailability of original training data. Compared to the state-of-the-art techniques, DMC demonstrates significantly better performance in image classification (CIFAR-100 and CUB-200) and object detection (PASCAL VOC 2007) in the single-headed IL setting.

研究动机与目标

  • 解决在无原始训练数据情况下,深度神经网络在增量学习过程中出现的灾难性遗忘问题。
  • 开发一种方法,在不存储历史数据或依赖样本记忆的情况下,保持对旧类和新类的高准确率。
  • 实现高效的单头分类,且在增量更新后模型大小保持稳定。
  • 克服基于正则化方法中因监督不对称而导致的偏向旧类或新类的固有偏差。
  • 利用公开的无标签数据,实现训练于不相交类别集上的模型之间的无偏知识迁移。

提出的方法

  • 使用标注数据单独训练仅针对新类的模型,同时保留用于旧类的预训练模型。
  • 通过新颖的双重蒸馏目标整合两个模型,将知识从旧模型和新模型同时蒸馏到单一学生模型中。
  • 利用通用的无标签辅助数据(如 MS COCO)在整合过程中提供多样化且可迁移的表征。
  • 确保辅助数据无需与目标数据共享类别标签或分布,仅需具备多样性和相关性。
  • 应用对称蒸馏:学生模型同时从两个教师模型学习,避免对旧类或新类产生偏向。
  • 采用对称且架构无关的框架,支持不同主干网络(如 ResNet-34 和 ResNet-50)的模型整合。

实验结果

研究问题

  • RQ1类增量学习方法是否能在无原始训练数据的情况下,同时在旧类和新类上实现高性能?
  • RQ2从两个独立训练的模型进行双重蒸馏,相比标准蒸馏,如何提升泛化能力并减少遗忘?
  • RQ3无标签辅助数据的分布在多大程度上影响整合模型的性能?
  • RQ4该方法是否能有效应用于不同主干架构而不会导致性能下降?
  • RQ5与现有非样本记忆型方法相比,该整合框架在准确率、模型效率和可扩展性方面是否更具优势?

主要发现

  • 在 19+1 类增量学习的 PASCAL VOC 2007 上,DMC 实现 70.8% 的 mAP,超越先前非样本记忆型方法的最先进水平。
  • 在 19+1 目标检测实验中,DMC 在所有类别上的平均 mAP 达到 68.47%,标准差仅为 1.75%。
  • 即使在严格设置下排除所有与 PASCAL VOC 相关的图像(DMC 独占辅助数据),DMC 在所有类别上仍优于先前最先进方法 [51]。
  • 该方法在性能更优的同时,将模型复杂度和推理时间控制在 Inference twice 基线的一半。
  • 使用 ResNet-50 同时训练旧类和新类模型导致性能下降(mAP 69.9%),而使用 ResNet-34 训练新类模型则达到 mAP 70.8%,表明在小数据集上深层模型存在过拟合风险。
  • 双重蒸馏机制有效平衡了知识迁移,避免了基于正则化方法中常见的对旧类或新类的偏向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。