Skip to main content
QUICK REVIEW

[论文解读] Constrained Few-shot Class-incremental Learning

Michael Hersche, Geethan Karunaratne|arXiv (Cornell University)|Jan 1, 2022
Domain Adaptation and Few-Shot Learning被引用 7
一句话总结

C-FSCIL 提出了一种受限的少样本类增量学习框架,采用冻结的元学习特征提取器、固定大小的可训练分类器,以及动态增长的记忆模块,用于存储准正交原型。在 1,200 个基础类之上学习 423 个新类时,该方法实现了最先进性能,准确率下降极小(低于 1.6%),同时保持恒定的计算成本和线性内存增长。

ABSTRACT

Continually learning new classes from fresh data without forgetting previous knowledge of old classes is a very challenging research problem. Moreover, it is imperative that such learning must respect certain memory and computational constraints such as (i) training samples are limited to only a few per class, (ii) the computational cost of learning a novel class remains constant, and (iii) the memory footprint of the model grows at most linearly with the number of classes observed. To meet the above constraints, we propose C-FSCIL, which is architecturally composed of a frozen meta-learned feature extractor, a trainable fixed-size fully connected layer, and a rewritable dynamically growing memory that stores as many vectors as the number of encountered classes. C-FSCIL provides three update modes that offer a trade-off between accuracy and compute-memory cost of learning novel classes. C-FSCIL exploits hyperdimensional embedding that allows to continually express many more classes than the fixed dimensions in the vector space, with minimal interference. The quality of class vector representations is further improved by aligning them quasi-orthogonally to each other by means of novel loss functions. Experiments on the CIFAR100, miniImageNet, and Omniglot datasets show that C-FSCIL outperforms the baselines with remarkable accuracy and compression. It also scales up to the largest problem size ever tried in this few-shot setting by learning 423 novel classes on top of 1200 base classes with less than 1.6% accuracy drop. Our code is available at https://github.com/IBM/constrained-FSCIL.

研究动机与目标

  • 解决在严格内存、计算和模型大小约束下持续少样本学习的挑战。
  • 在仅使用少量样本学习新类时,防止灾难性遗忘。
  • 实现可扩展、高效且准确的增量学习,最小化微调次数并实现线性内存增长。
  • 通过超维空间中的准正交对齐,提升原型表示质量。
  • 提供灵活的更新机制,在三种不同模式下平衡准确率与计算成本。

提出的方法

  • 在架构上将冻结的元学习卷积神经网络特征提取器与可训练的固定大小全连接层分离,并使用可重写记忆模块存储类别原型。
  • 采用超维计算将类别表示为高维向量,通过测度集中效应实现指数级容量和最小干扰。
  • 引入三种更新模式:模式 1 采用无梯度更新的简单原型平均;模式 2 通过极简微调结合极性化原型进行更新;模式 3 使用新型损失函数,在微调前将原型引导至准正交性。
  • 在元学习过程中使用软绝对注意力机制,以增强特征表示质量和类间分离度。
  • 通过角距离与重构损失函数的组合,对原型进行准正交化,以最小化类别间的干扰。
  • 在模式 2 中采用全局平均激活(GAA)记忆,以高效存储激活模式,实现计算成本极低的微调。

实验结果

研究问题

  • RQ1在严格内存和计算约束下,少样本类增量学习系统能否在扩展至数千个类别时仍保持高准确率?
  • RQ2在仅使用少量样本的持续学习中,超维计算在减少类别原型间干扰方面有多有效?
  • RQ3在受限的 FSCIL 设置下,不同原型更新策略在准确率与计算成本之间存在何种权衡?
  • RQ4准正交原型对齐是否能在不使用对抗性训练的情况下显著提升泛化能力和鲁棒性?
  • RQ5在 FSCIL 中,模型压缩和低精度表示能在多大程度上应用而不牺牲性能?

主要发现

  • C-FSCIL 在 1,200 个基础类之上学习 423 个新类时,准确率下降仅为 1.6%,在 CIFAR100、mini-ImageNet 和 Omniglot 上均优于所有基线方法。
  • 即使最简单的模式 1(无微调的原型平均)在 CIFAR100 和 mini-ImageNet 上也优于所有先前方法,证明了准正交原型的有效性。
  • 模式 3 通过新型损失函数对原型进行引导,其准确率比基线方法在大规模 FSCIL 问题上最高提升 4%。
  • 在 Omniglot 上,C-FSCIL 在模式 3 下经过 10 个阶段后达到 85.70% 的准确率,分别优于 ProtoNet 和 CEC 至少 8.30% 和 16.99%。
  • 将嵌入维度降低至 d = 64(低于类别数量)仅导致准确率轻微下降,但仍全面超越所有基线方法。
  • 与标准指数注意力相比,软绝对注意力函数在新类别学习阶段性能更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。