[论文解读] Maintaining Discrimination and Fairness in Class Incremental Learning
本文提出了一种新颖的方法,通过结合知识蒸馏(KD)以实现类内区分性,并采用训练后权重对齐(WA)技术来校正全连接层权重的偏差,显著提升了旧类与新类之间的公平性。该方法在无需验证集或额外参数的情况下,在ImageNet-1000、ImageNet-100和CIFAR-100上均实现了最先进(SOTA)的准确率。
Deep neural networks (DNNs) have been applied in class incremental learning, which aims to solve common real-world problems of learning new classes continually. One drawback of standard DNNs is that they are prone to catastrophic forgetting. Knowledge distillation (KD) is a commonly used technique to alleviate this problem. In this paper, we demonstrate it can indeed help the model to output more discriminative results within old classes. However, it cannot alleviate the problem that the model tends to classify objects into new classes, causing the positive effect of KD to be hidden and limited. We observed that an important factor causing catastrophic forgetting is that the weights in the last fully connected (FC) layer are highly biased in class incremental learning. In this paper, we propose a simple and effective solution motivated by the aforementioned observations to address catastrophic forgetting. Firstly, we utilize KD to maintain the discrimination within old classes. Then, to further maintain the fairness between old classes and new classes, we propose Weight Aligning (WA) that corrects the biased weights in the FC layer after normal training process. Unlike previous work, WA does not require any extra parameters or a validation set in advance, as it utilizes the information provided by the biased weights themselves. The proposed method is evaluated on ImageNet-1000, ImageNet-100, and CIFAR-100 under various settings. Experimental results show that the proposed method can effectively alleviate catastrophic forgetting and significantly outperform state-of-the-art methods.
研究动机与目标
- 探究知识蒸馏在类增量学习中的实际作用,包括其优势与局限性。
- 识别并解决因最终全连接层权重不平衡导致的新类分类偏好这一根本原因。
- 开发一种简单而有效的方法,同时保持旧类内部的判别能力与旧类与新类之间的公平性。
- 消除持续学习中对验证集或额外可训练参数的需求。
- 在ImageNet-1000、ImageNet-100和CIFAR-100等标准基准上实现最先进性能。
提出的方法
- 在训练过程中应用知识蒸馏,通过从教师模型迁移软标签来保留旧类的判别特征。
- 在标准训练完成后,执行一种称为权重对齐(WA)的后处理步骤,以校正最终全连接层权重中的偏差。
- WA基于旧类与新类的权重向量的L2-范数计算一个缩放因子γ,然后对新类的logits进行重标度,以平衡预测置信度。
- 该方法无需额外参数或验证集,仅使用训练模型权重中的信息。
- 将缩放因子γ应用于新类的输出logits,以降低其过自信程度,提升公平性。
- 该方法对不同范数选择(L1或L2)和样本选择策略具有鲁棒性,性能影响极小。
实验结果
研究问题
- RQ1仅靠知识蒸馏是否足以解决类增量学习中的灾难性遗忘?是否存在隐藏的局限性?
- RQ2最终全连接层中的权重偏差在多大程度上导致模型对新类的偏好?
- RQ3是否可以在不重新训练或使用验证集的情况下提升旧类与新类之间的公平性?
- RQ4是否可以仅利用训练后模型权重的信息来校正权重偏差?
- RQ5与最先进方法相比,该方法在准确率和效率方面表现如何?
主要发现
- 在100次增量步骤的ImageNet-1000上,该方法实现了72.9%的top-1准确率,优于以往最先进方法。
- 在20次增量步骤的CIFAR-100上,该方法实现了62.6%的平均准确率,超过BiC(62.1%)及其他SOTA方法。
- 知识蒸馏能有效维持旧类内部的判别能力,但无法纠正模型对新类的偏向。
- 权重对齐通过基于权重范数计算的缩放因子,对新类logits进行重标度,显著提升了公平性,且无需额外参数。
- 该方法对不同范数选择(L1或L2)和样本选择策略具有鲁棒性,性能波动极小。
- 消融实验表明,将权重限制为正值可提升性能,通过稳定缩放因子γ,进一步增强公平性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。