[论文解读] Defining Benchmarks for Continual Few-Shot Learning
本文提出了一种用于持续少样本学习的新基准框架,引入了SlimageNet64——一个紧凑的64×64版本ImageNet,每类仅包含200个样本(总计20万个样本)。该研究在多个持续学习设置下评估了当前最先进的少样本学习模型,发现结合嵌入方法与梯度方法的混合模型在泛化能力上比单一方法模型高出100%–200%,尤其在动态类别场景中表现更优。
Both few-shot and continual learning have seen substantial progress in the last years due to the introduction of proper benchmarks. That being said, the field has still to frame a suite of benchmarks for the highly desirable setting of continual few-shot learning, where the learner is presented a number of few-shot tasks, one after the other, and then asked to perform well on a validation set stemming from all previously seen tasks. Continual few-shot learning has a small computational footprint and is thus an excellent setting for efficient investigation and experimentation. In this paper we first define a theoretical framework for continual few-shot learning, taking into account recent literature, then we propose a range of flexible benchmarks that unify the evaluation criteria and allows exploring the problem from multiple perspectives. As part of the benchmark, we introduce a compact variant of ImageNet, called SlimageNet64, which retains all original 1000 classes but only contains 200 instances of each one (a total of 200K data-points) downscaled to 64 x 64 pixels. We provide baselines for the proposed benchmarks using a number of popular few-shot learning algorithms, as a result, exposing previously unknown strengths and weaknesses of those algorithms in continual and data-limited settings.
研究动机与目标
- 为解决持续少样本学习缺乏标准化基准的问题,该设置结合了低数据量的少样本学习与顺序任务流式处理。
- 形式化一个理论框架,统一持续少样本学习中的元 episodic 与持续学习动态。
- 提供一个最小化、高效且内存友好的数据集(SlimageNet64),用于系统评估持续少样本学习模型。
- 揭示现有少样本学习算法在持续学习、数据受限及内存受限条件下此前未知的优势与缺陷。
- 支持在小批量随机训练设置下系统研究灾难性遗忘与样本效率。
提出的方法
- 提出一种新基准设置:模型一次仅从顺序支持集中学习一个少样本任务,训练期间无法访问过去或未来任务。
- 引入SlimageNet64:一个64×64、共包含20万个数据点的ImageNet子集,保留全部1,000个类别,每类仅200个样本,仅需9 GB内存。
- 设计四种评估设置:新样本(A)、新类别(B)、新类别并覆盖(C)以及新类别与新样本(D),以测试在不同任务转移下的泛化能力。
- 使用共享内存库存储特定任务的知识,使模型在统一目标集上的推理过程中可访问先前信息。
- 采用标准少样本学习模型(如ProtoNets、MAML++、SCA)作为基线,在全部四种设置下评估性能。
- 通过ATM(激活到内存)与MAC(乘加)成本度量效率,比较各模型之间的计算开销。
实验结果
研究问题
- RQ1现有少样本学习模型在持续、顺序且数据受限的学习条件下表现如何?
- RQ2在持续少样本学习中,基于嵌入的方法、基于梯度的方法与混合方法的相对性能如何?
- RQ3数据集选择(如SlimageNet64与Omniglot)如何影响模型在持续少样本学习中的泛化能力与效率?
- RQ4内存约束与任务转移(如新类别、新样本)在多大程度上影响模型性能与遗忘程度?
- RQ5在持续少样本学习中,低端与高端MAML++变体之间的计算成本权衡如何?
主要发现
- 结合基于嵌入与基于梯度的优化的混合模型(如高端MAML++、SCA)在泛化准确率上始终比单一方法模型高出100%–200%。
- 在新类别与新样本设置(D)中,基于嵌入的方法显著优于基于梯度的方法,表明其在保留新类别信息方面更具优势。
- 在SlimageNet64中,ProtoNets始终优于低端MAML++,即使在新类别并覆盖设置(C)中也是如此,表明在该数据集中类别保留比解耦更为关键。
- ProtoNets是计算效率最高的模型,其ATM与MAC成本比MAML++变体低两个数量级。
- 随着支持样本数量的增加,低端MAML++的计算成本显著高于高端变体,这是由于其特征展平与线性层设计所致。
- 在新样本设置(A)中,基于嵌入与基于梯度的方法在SlimageNet64上的表现相近,而与Omniglot中基于梯度的方法占优的情况不同,表明性能表现具有数据集依赖性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。