[论文解读] End-to-End Incremental Learning
该论文提出了一种用于深度神经网络的端到端增量学习框架,通过结合交叉熵损失和知识蒸馏损失来缓解灾难性遗忘。通过在新数据和少量旧类别样本的演示集上进行训练,该方法在CIFAR-100和ImageNet上实现了最先进(SOTA)的准确率,且对先前学习类别的性能下降最小。
Although deep learning approaches have stood out in recent years due to their state-of-the-art results, they continue to suffer from catastrophic forgetting, a dramatic decrease in overall performance when training with new classes added incrementally. This is due to current neural network architectures requiring the entire dataset, consisting of all the samples from the old as well as the new classes, to update the model -a requirement that becomes easily unsustainable as the number of classes grows. We address this issue with our approach to learn deep neural networks incrementally, using new data and only a small exemplar set corresponding to samples from the old classes. This is based on a loss composed of a distillation measure to retain the knowledge acquired from the old classes, and a cross-entropy loss to learn the new classes. Our incremental training is achieved while keeping the entire framework end-to-end, i.e., learning the data representation and the classifier jointly, unlike recent methods with no such guarantees. We evaluate our method extensively on the CIFAR-100 and ImageNet (ILSVRC 2012) image classification datasets, and show state-of-the-art performance.
研究动机与目标
- 解决深度学习在增量类别学习过程中出现的灾难性遗忘问题,即模型在学习新数据时会遗忘先前学习过的类别。
- 实现深度网络的端到端训练,其中特征表示与分类器联合更新,与以往将这两项任务解耦的方法不同。
- 在类别数量不断增加的情况下,保持模型参数数量固定且内存占用低。
- 开发一种可扩展、实用的方法,适用于必须随时间学习新类别的现实世界视觉识别系统,而无需对全部数据重新训练。
- 在不依赖完整微调或外部分类器的前提下,实现在增量图像分类基准上的最先进性能。
提出的方法
- 将深度神经网络中的标准交叉熵损失替换为一种混合损失,结合新类别的交叉熵损失与旧类别的知识蒸馏损失,以保留对旧类别的预测能力。
- 使用一个小型、固定大小的演示集,其中包含先前学习过的类别的代表性样本,以在增量训练过程中保持对旧类别的知识。
- 在训练过程中应用数据增强(例如随机裁剪、翻转)以提高泛化能力并减少在小规模演示集上的过拟合。
- 实施平衡微调,以解决增量步骤中旧类别与新类别之间的类别不平衡问题,从而提升对旧类别的性能。
- 通过将原始损失函数替换为所提出的增量损失,可将任意深度学习架构适配到增量学习框架中。
- 以完全端到端的方式训练模型,联合优化特征表示与分类器权重,无需预训练或单独的适配步骤。
实验结果
研究问题
- RQ1是否可以让深度神经网络在增量学习新类别时,同时保持对先前学习类别的高准确率,而不会出现灾难性遗忘?
- RQ2知识蒸馏与交叉熵损失的结合方式,相较于以往方法,在维持增量学习各阶段性能方面表现如何?
- RQ3演示集的大小和样本选择策略对长期增量学习性能有何影响?
- RQ4端到端联合优化特征与分类器是否优于将表示学习与分类任务解耦的方法?
- RQ5所提出的方法是否能在大规模基准如ImageNet上实现最先进性能,即使采用较大的增量步骤?
主要发现
- 在CIFAR-100上采用5类增量步骤时,该方法实现了59.2%的top-5准确率,优于以往方法,创下新的最先进水平。
- 在CIFAR-100上采用20类增量步骤时,该方法实现了53.8%的平均准确率,显著优于iCaRL及其他基线方法。
- 在ImageNet上采用100类增量步骤时,该方法相比以往最先进方法将平均准确率提升了超过5%。
- 消融研究证实,数据增强与平衡微调对性能至关重要,尤其是在大增量步骤下。
- 同时采用数据增强与平衡微调的完整模型(‘Our-CNN-Full’)在所有设置下均取得最佳结果,证明了完整框架的有效性。
- 该方法在整个增量学习过程中保持模型大小与参数数量不变,满足真正增量系统的要求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。